Существуют ли библиотеки с открытым исходным кодом, поддерживающие идентификацию таблицы & извлечение?Извлечение/идентификация таблиц из PDF python
Под этим я имею в виду:
- Определить структуру таблица существует
- классифицируют таблицы из его содержимого
- Извлечение данных из таблицы в удобном формате вывода, например, JSON/CSV и т.д.
Я просмотрел подобные вопросы на эту тему и нашел следующее:
- PDFMiner который решает проблему 3, но мне кажется, пользователю необходимо указать PDFMiner, где структура таблицы существует для каждой таблицы (исправьте меня, если я ошибаюсь)
- pdf-table-extract, который пытается решить проблему 1, но согласно списку To-Do, в настоящее время не может идентифицировать таблицы, разделенные пробелами. Это проблема, так как все таблицы в моих PDF-файлах разделены пробелами!
В настоящее время я думаю, что мне пришлось бы потратить много времени на разработку решения машинного обучения для определения структур таблиц из PDF-файлов. Поэтому любые альтернативные подходы были бы более чем приветствуются!
Если вы можете использовать инструменты за пределами python, вы можете взглянуть на [tabula] (http://tabula.technology/). – mkl
спасибо. Обязательно изучите это. Я увлекаюсь поиском решения в python, хотя из-за скорости, с которой python может быть записано –