0

У меня есть набор (300 тыс.) PDF-файлов с несколькими вариантами ответов (около 50 на каждый PDF).Найти текстовые границы в PDF со многими текстами

Каждый из этих PDF может иметь небольшой разный макет, что делает невозможным просто преобразование в текст (pdftotext) и соответствие с использованием REGEXP.

Вопрос 1

ФОРМУЛИРОВКА

а) ALTERNATIVE_A

б) ALTERNATIVE_B

с) ALTERNATIVE_C

д) ALTERNATIVE_D

.

Q1) ФОРМУЛИРОВКА

а. ALTERNATIVE_A

b. ALTERNATIVE_B

c. ALTERNATIVE_C

d. ALTERNATIVE_D

e. ALTERNATIVE_E

С другой стороны, все файлы имеют общий характер, и его вопросы близки к его альтернативам и далеки от других вопросов. Эта характеристика заставила меня задаться вопросом, является ли это задачей компьютерного зрения.

Questions and alternatives

Есть ли программное обеспечение, которое может помочь мне в этой задаче?

Спасибо!

ответ

0

Ваша проблема в получении текста или поиске вопросов?

Если это проблема, то ваша проблема может быть решена с помощью программного обеспечения OCR (оптическое распознавание символов). В частности, вы должны искать тот, который работает на PDF-файлов, таких как этот: http://www.onlineocr.net/

Это может (если работает должным образом) дать вам текст в формате PDF, который можно дальше синтаксического анализа с помощью

Если ваша проблема локализации вопросы, которые я ожидал бы, что методы НЛП будут работать лучше, чем визуальные, но если вы действительно хотите это сделать, используя компьютерное зрение, я бы предложил изучить алгоритмы обнаружения/определения границ.