У меня есть набор (300 тыс.) PDF-файлов с несколькими вариантами ответов (около 50 на каждый PDF).Найти текстовые границы в PDF со многими текстами
Каждый из этих PDF может иметь небольшой разный макет, что делает невозможным просто преобразование в текст (pdftotext) и соответствие с использованием REGEXP.
Вопрос 1
ФОРМУЛИРОВКА
а) ALTERNATIVE_A
б) ALTERNATIVE_B
с) ALTERNATIVE_C
д) ALTERNATIVE_D
.
Q1) ФОРМУЛИРОВКА
а. ALTERNATIVE_A
b. ALTERNATIVE_B
c. ALTERNATIVE_C
d. ALTERNATIVE_D
e. ALTERNATIVE_E
С другой стороны, все файлы имеют общий характер, и его вопросы близки к его альтернативам и далеки от других вопросов. Эта характеристика заставила меня задаться вопросом, является ли это задачей компьютерного зрения.
Есть ли программное обеспечение, которое может помочь мне в этой задаче?
Спасибо!