У меня возник вопрос о разбиении PDF-файлов. в основном у меня есть сборник pdf-файлов, файлы которых я хочу разделить в терминах , пункт. поэтому для каждого абзаца файла pdf файл должен быть сам по себе. Я был бы признателен, если вы можете помочь мне с этим, желательно на Python, но если это невозможно, любой язык будет работать.Разделение файлов PDF в абзацы
1
A
ответ
0
Вы можете использовать pdftotext для этого, оберните его в подпроцесс python. В качестве альтернативы вы можете использовать другую библиотеку, которая уже делает это неявно, как textract. Вот краткий пример. Примечание. Я использовал 4 пробела в качестве разделителя для преобразования текста в список абзацев, вы можете использовать другую технику.
import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)
+0
Спасибо за пример. он отлично работает для моего дела. – LoniF
Что вы планируете использовать с python для извлечения текста из PDF? pdf2text также можно использовать. – Radan
В настоящее время я пишу программу, которая использует вызов подпроцесса для анализа PDF с использованием pdftotext. Это очень полезно: https://en.wikipedia.org/wiki/Pdftotext – Steampunkery
@Radan Я хочу вычислить сходство между абзацами. все файлы PDF состоят из нескольких абзацев, и я хочу видеть, насколько похожи абзацы друг к другу. но сначала мне нужно разбить файлы PDF на параграфы. – LoniF