2009-11-04 1 views

ответ

11

Использование PyPdf2 вы можете использовать метод extractText() для извлечения pdf-текста и работы над ним.

Обновление: Изменен текст для ссылки на PyPdf2, благодаря @Aditya Kumar для головок.

+0

@cartman: у вас есть идея, как работать с тем, что PyPdf не помещает пробел между строками? Например, если одна строка в pdf-заявлении «привет», а затем следующая строка «мир», текст, который я извлекаю, - это «helloworld», а не «hello world», который убивает любой текст. ... – sepiroth

+0

Если я правильно помните, PyPdf читает некоторые новые строки в некоторых PDF-файлах как «\ x00». – PhilS

+0

+1 для pyPdf: это удобный модуль, даже если он немного устарел для 2.6 (источники доступны в любом случае, это всего лишь несколько адаптаций). – RedGlyph

4

Я не думаю, что вы можете сделать это за один шаг, но вы можете получить текст из pdf с pdfminer. Затем вы можете применить любой текстовый поиск к восстановленным данным.