2010-09-21 9 views
3

Я ищу библиотеку (если возможно, на Java или PHP), чтобы извлечь текст из PDF. Существует много программного обеспечения доступны, в том числе:Извлечение текста из PDF: PDFLib vs PDF extract vs pdf2xml

Какие инструменты вы бы выбрали? Что ты о них думаешь?

Благодарим вас за помощь!

ответ

3

Мой любимый iText (java), но извлечение текста из PDF может быть сопряжено с трудностями, так как текст в PDF не сохраняется в порядке, в котором он появляется.

-1

IText были проблемы правильно извлечения текста из i1040.pdf IrS как сообщалось здесь:

< 1> article.gmane.org/gmane.comp.java.lib.itext.general/65680

Как я могу понять, когда встроены шрифты, не всегда можно получить выделенный текст. См.: < 2> www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html < 3> раздел 9.10 .1: www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf

< 3> говорит:

Если шрифт не определен в одном из эти способы ... символы не могут быть преобразованы в значения Unicode без дополнительной информации.

Я предполагаю, что «преобразование в значения Юникода» имеет важное значение для извлечения текста.