2016-03-22 6 views
0

Я пытаюсь извлечь некоторые таблицы из файлов PDF, и оба инструмента (Abbyy и Omnipage) выполняют довольно хорошую работу по определению таблиц. Но когда дело доходит до определения строк и столбцов, они совершают одни и те же ошибки.При преобразовании PDF в Excel с помощью Omnipage или Abbyy Finereader существует ли способ остановить его от разделения отдельных ячеек?

Обычно проблема возникает, когда они создают частичную строку, разделяющую только одну ячейку по горизонтали, но не другие. Пример того, что я имею в виду, см. Прикрепленное изображение. В столбце слева некоторые ячейки разделены пополам, что затрудняет работу таблицы в Excel.

Мне показалось странным, что эти программы делают это в первую очередь, поскольку таблицы с разделенными ячейками всегда являются болью.

Есть ли способ сказать этим программам установить только полные столбцы и строки, а не разделять отдельные ячейки?

Любые предложения по другим решениям?

enter image description here

+0

Вы пытаетесь автоматизировать OCR из своего приложения или ищете приложение для конечного пользователя? Если последнее, то вам лучше, как на Stackexchange –

ответ

1

ABBYY имеет много продуктов, OCR, настраиваемые из них называется FineReader Engine и FlexiLayout студия. Другие продукты ABBYY не имеют требуемых настроек.

+0

Спасибо. Очень полезно. Я не знал об этих продуктах. – mgalka

 Смежные вопросы

  • Нет связанных вопросов^_^