2016-12-14 11 views
1

Я разбираю PDF-файлы с помощью pdfMiner, используя его как библиотеку в моем сценарии на python.pdfminer - доступ к таблице PDF

В большинстве этих PDF-файлов есть таблица, в которой один из столбцов называется «компания».

Есть ли способ: 1) обнаружить существование этой таблицы в PDF. 2) получить все названия компаний (т. Е. Все записи во втором столбце таблицы).

Спасибо за вашу помощь AC

ответ

0

Лучший метод, который я нашел до сих пор является использование класса HTMLconverter в pdfminer Lib. Это позволяет вам конвертировать PDF в формате HTML, и легче определить таблицы, строки и столбцы. В моем случае по крайней мере: он может работать со всеми типами таблиц в PDF-файле.