2014-01-24 3 views
-1

Я пытаюсь прочитать приведенный ниже pdf-файл, и мне нужно сохранить каждую статью в отдельном файле.Чтение содержимого pdf с использованием Python

https://dl.dropboxusercontent.com/u/23092311/sample.pdf

Изделие может быть в одной или более чем одной страницы. Я использовал PDFMiner для преобразования всего файла pdf в txt. Но я не знаю, как конвертировать в несколько статей.

Я новичок в Python. Пожалуйста, предоставьте лучший метод или образец кода для извлечения каждой статьи отдельно?

+1

Вот мой адрес электронной почты: [email protected] Спасибо devnull – user4k

+0

Привет, devnull, я жду вашего ответа! Пожалуйста, дайте мне знать – user4k

ответ

0

Буду честным. Я никогда раньше не использовал PDFMiner, но если у вас уже есть PDF-файл в текстовом файле, вы не могли бы просто разобрать текстовый файл в строку, а затем использовать split function, чтобы разделить строку на разные статьи на основе «The New Йорк Таймс "? Я предполагаю, что предполагает, что PDFMiner способен читать этот модный шрифт, который я не знаю, если это возможно.

Глядя на файл, при условии, вы могли бы что-то вроде следующего:

reading = open('test.txt') 
full_paper = reading.read() 
split_paper = full_paper.split('Copyright 2014 The New York Times Company. All Rights Reserved.') 

split_paper затем будет массив, содержащий ваши статьи в индексах 1, 2, 3, 4, 5, 6 (индекс 0 будет содержать начальный заголовок). Вам нужно будет сделать некоторую другую очистку строк, чтобы получить точные статьи, но это должно по крайней мере начать с вас.

Имеют смысл?

+0

Пожалуйста, найдите соответствующий текстовый файл. https://github.com/kannan4k/Sentimental-Analysis-in-Python/blob/master/sample.txt – user4k

+0

Обновленный начальный комментарий. Дайте знать, если у вас появятся вопросы. – Rooks103