pdfminer - доступ к таблице PDF - Отличная библиотека

Я разбираю PDF-файлы с помощью pdfMiner, используя его как библиотеку в моем сценарии на python.pdfminer - доступ к таблице PDF

В большинстве этих PDF-файлов есть таблица, в которой один из столбцов называется «компания».

Есть ли способ: 1) обнаружить существование этой таблицы в PDF. 2) получить все названия компаний (т. Е. Все записи во втором столбце таблицы).

Спасибо за вашу помощь AC

источник

2016-12-14 Effe Pelosa

Лучший метод, который я нашел до сих пор является использование класса HTMLconverter в pdfminer Lib. Это позволяет вам конвертировать PDF в формате HTML, и легче определить таблицы, строки и столбцы. В моем случае по крайней мере: он может работать со всеми типами таблиц в PDF-файле.

источник

2016-12-14 15:32:54

pdfminer - доступ к таблице PDF

ответ

Смежные вопросы