Я работаю над проектом, который требует получения данных из некоторых PDF-документов.Python 3 - Сбор данных из PDF
В настоящее время я использую Foxit toolkit
(вызывая его из сценария), чтобы преобразовать документ в txt, а затем я повторяю его. Я очень доволен этим, но 100$
это просто то, что я не могу позволить себе для такого маленького проекта.
Я проверил все свободные конвертеры, которые я смог найти (как
xpdf
,pdftotext
), но они просто не режут, они запутались формат таким образом, что я не могу использовать слова, чтобы найти данные.Я пробовал некоторые
Python
модулей, таких какpdfminer
, но они, похоже, не работают хорошо вPython 3
.Я не могу получить данные до того, как они преобразуются в PDF, потому что я получаю их от телефонной связи.
Я ищу способ получать данные из PDF или преобразователь, что по крайней мере следовать новой строки правильно.
Обновление: PyPDF2 не захватывает какой-либо текст из документа pdf.
Вы пробовали https://pythonhosted.org/PyPDF2/? – danielfranca
Думаю, что нет, я попробую, спасибо. – EndermanAPM