Я пытаюсь извлечь текст из pdf-документов. Я протестировал несколько таких инструментов, как PDFBox
, TET
, PDFTextStream
и т. Д., Но ни один из них не подходит для извлечения текста персидских документов с несколькими столбцами pdf.Как определить столбцы PDFBox?
В настоящее время я пытаюсь совместить хорошие функции этих инструментов и использовать некоторые трюки на них. Теперь я хочу знать, как я могу определить количество столбцов страницы и как разбить тексты этих столбцов.
Специально я хочу знать, какой класс PDFBox
или PDFTextStream
отвечает за обнаружение столбцов и как он работает.
'PDFTextStream' так же, как вы описали. Я глубоко проследил его основные объекты и [интерфейсы] (http://downloads.snowtide.com/javadoc/PDFTextStream/2.3.2/com/snowtide/pdf/PDFTextStream.html) этих объектов. Я думаю, что его 'API' действительно прост. Но основным недостатком 'PDFTextStream' является то, что он не поддерживает скрипты« справа налево »(например, персидский, арабский и иврит). Поэтому я перешел в 'PDFBox' тоже! Но 'PDFBox' имеет ошибку при извлечении текста документов RTL' pdf, однако он их поддерживает. Я думаю, что у нее есть архитектура «Work-Flow», поэтому ее очень сложно отладить. в любом случае, спасибо. – user2041057