Разделение файлов PDF в абзацы

У меня возник вопрос о разбиении PDF-файлов. в основном у меня есть сборник pdf-файлов, файлы которых я хочу разделить в терминах , пункт. поэтому для каждого абзаца файла pdf файл должен быть сам по себе. Я был бы признателен, если вы можете помочь мне с этим, желательно на Python, но если это невозможно, любой язык будет работать.Разделение файлов PDF в абзацы

источник

2017-02-07 LoniF

Что вы планируете использовать с python для извлечения текста из PDF? pdf2text также можно использовать. – Radan

В настоящее время я пишу программу, которая использует вызов подпроцесса для анализа PDF с использованием pdftotext. Это очень полезно: https://en.wikipedia.org/wiki/Pdftotext – Steampunkery

@Radan Я хочу вычислить сходство между абзацами. все файлы PDF состоят из нескольких абзацев, и я хочу видеть, насколько похожи абзацы друг к другу. но сначала мне нужно разбить файлы PDF на параграфы. – LoniF

Вы можете использовать pdftotext для этого, оберните его в подпроцесс python. В качестве альтернативы вы можете использовать другую библиотеку, которая уже делает это неявно, как textract. Вот краткий пример. Примечание. Я использовал 4 пробела в качестве разделителя для преобразования текста в список абзацев, вы можете использовать другую технику.

import re 
import textract 
#read the content of pdf as text 
text = textract.process('file_name.pdf') 
#use four space as paragraph delimiter to convert the text into list of paragraphs. 
print re.split('\s{4,}',text)

источник

2017-02-08 15:57:09 Radan

Спасибо за пример. он отлично работает для моего дела. – LoniF

ответ

Смежные вопросы