Я хотел бы извлечь данные формы из PDF, используя библиотеку, предпочтительно бесплатную библиотеку программного обеспечения, которая упакована в ubuntu.Извлечение данных формы из PDF (библиотека или utlity)
Например, у меня есть HTML-форма, но я бы также хотел, чтобы пользователи могли представить заполненную форму PDF вместо формы HTML.
Итак, я ищу библиотеку (или простую утилиту CLI), которая берет PDF в качестве входных данных и позволяет мне извлекать заполненные поля по имени, как с HTML.
Я пробовал pdftotext, но на самом деле не сохраняет информацию, он просто отображает PDF как текст. Я попробовал PDFminer, но он, похоже, не работал (по крайней мере, с моим тестовым PDF) вообще (только что получил пустой вывод).
Если это библиотека, я не слишком разборчив в отношении языка, но питон будет плюсом.
Как в стороне, я использовал PDFMiner для очень схожих задач в прошлом, и он всегда работал очень хорошо. – ely