Я в настоящее время кодирую в python и сумел использовать pdftotext, чтобы извлечь текст из pdf.После использования pdftotext: найдите страницу строки из txt
Этот конкретный текстовый файл разделен на список строк. Используя регулярное выражение, я могу найти конкретные слова, которые меня интересуют. Причина, по которой я разделяю текст в списке, заключается в том, что я хочу измерить расстояние между двумя конкретными словами, а по расстоянию я имею в виду количество слов между два слова.
Однако, найдя позицию слов, я хотел бы иметь возможность обратиться к первоначальному pdf. В деталях меня интересует страница и, возможно, строка (если PDF поддерживает такую структуру), где эти слова расположены.
Одна из моих идей - это сделать этот процесс для каждой страницы pdf, поэтому, когда я нахожу эти слова, я знаю, на какой странице это было. Но это имеет большой недостаток, что иногда разрывы страниц не обязательно естественны. Значит, я потерял бы способность находить слова, если они, к сожалению, разделены разрывом страницы.
У вас есть идеи, как это сделать более сложным образом?