текстовые файлы PDF с Python?

Есть ли пакет/библиотека для python, который позволит мне открыть PDF-файл и выполнить поиск текста для определенных слов?текстовые файлы PDF с Python?

источник

2009-11-04 sepiroth

Использование PyPdf2 вы можете использовать метод extractText() для извлечения pdf-текста и работы над ним.

Обновление: Изменен текст для ссылки на PyPdf2, благодаря @Aditya Kumar для головок.

источник

2009-11-04 07:39:34 ismail

@cartman: у вас есть идея, как работать с тем, что PyPdf не помещает пробел между строками? Например, если одна строка в pdf-заявлении «привет», а затем следующая строка «мир», текст, который я извлекаю, - это «helloworld», а не «hello world», который убивает любой текст. ... – sepiroth

Если я правильно помните, PyPdf читает некоторые новые строки в некоторых PDF-файлах как «\ x00». – PhilS

+1 для pyPdf: это удобный модуль, даже если он немного устарел для 2.6 (источники доступны в любом случае, это всего лишь несколько адаптаций). – RedGlyph

Я не думаю, что вы можете сделать это за один шаг, но вы можете получить текст из pdf с pdfminer. Затем вы можете применить любой текстовый поиск к восстановленным данным.

источник

2009-11-04 07:38:39 shylent

ответ

Смежные вопросы