Я работаю над проектом, где у меня есть файл pdf, в котором описывается одна из политик здравоохранения. Мне нужно извлечь информацию из этого PDF-файла и попытаться сохранить его в некоторой форме, чтобы я мог ответить на вопросы, связанные с политикой, извлекая информацию из этого PDf.Обработка PDF для извлечения информации
Этот PDF слишком большой, поэтому я хочу разделить PDF в соответствии с различными разделами, чтобы при входе в запрос какой-либо конкретной области мне не пришлось проходить весь документ.
Я попытался решить это, используя некоторые PDF-конвертеры, которые преобразуют PDF-файлы в HTML-файлы. Но эти конвертеры не будут правильно конвертировать PDF в HTML, чтобы заголовки имели заголовок заголовка. Кроме того, даже если я правильно его преобразую и получаю правильные разделы из документа, я не получаю, как хранить эти данные. (Я имею в виду, в какой форме я должен хранить эти данные).
Есть ли другие решения, с помощью которых я могу это достичь. Я использую Python, а также могу использовать NLTK, если это необходимо. Также формат не фиксирован для PDfs, я хочу сказать, что мой код должен работать с любыми типами PDF-файлов.
Объем этой проблемы, вероятно, слишком велик. Есть компании, работающие полный рабочий день по этой проблеме, и они еще не решили ее полностью (как вы ее нашли), и я сомневаюсь, что они когда-либо будут, учитывая, что сила PDF не является точно структурированным хранилищем данных. –
Спасибо за ответ. мы работаем над одним и тем же. Но фактически застрял с того, с чего начать и как это сделать. Если у вас есть какие-либо советы по этой проблеме. Пожалуйста, помогите мне. :) – Gunjan
Я бы попытался посмотреть, находится ли информация, которую вы ищете, где-то еще вверх (до того, как она превратилась в PDF). –