2010-03-22 1 views
2

Может ли кто-нибудь помочь с извлечением текста со страницы в pdf?Как извлечь текст с помощью Zend_Pdf из pdf страницы

<?php 
$pdf = Zend_Pdf::load('example.pdf'); 
$page = $pdf->page[0]; 

Я бы предположил, что метод страницы будет существовать, но я не смог найти ничего, чтобы позволить мне извлечь содержимое.

Пример: $ page-> getContents(); $ PAGE-> ToString(); $ PAGE-> extractText();

... Помощь !!!! Это сводит меня с ума!

+0

http://stackoverflow.com/questions/5496191/php-pdf-2-text-problem Надеюсь, что это поможет – Varshaan

ответ

0

От the manual не отображается, что эта функция поддерживается. Кроме того, новый текст записывается с использованием drawText() function, который появляется для записи изображений, а не простого «декодируемого» текста.

+0

Он пишет «текст», а не изображения, но вы, безусловно, правы, на данный момент части PDF не может быть извлечен или изменен. –

2

Я согласен с Энди в том, что это, похоже, не поддерживается. В качестве альтернативы взгляните на Shaun Farrell's solution to extracting text from a PDF for use with Zend_Search_Lucene. Он использует XPDF, что также может удовлетворить ваши потребности.

+2

xpdf извлекает текст из PDF-файлов, если ваши PDF-файлы действительно содержат текст, конечно (в отличие от отсканированных изображений). С другой стороны, вы также можете попробовать следующее: http://www.webcheatsheet.com/php/reading_clean_text_from_pdf.php. – wimvds

+0

Ссылка выше мертва, и пока я нашел несколько страниц, связанных с ней, я не мог найти другой источник. Я смог использовать pdftotext для извлечения необходимой мне информации, если кто-то еще пробегает этот пост. –