Технология, используемая для понимания неструктурированного документа

-1

У меня есть несколько неструктурированных документов (PDF и HTML). Эти неструктурированные документы имеют предсказуемую картину. И есть «n» экземпляров этих шаблонов.Технология, используемая для понимания неструктурированного документа

Мне нужно написать программу для извлечения информации из этих документов. Программа должна быть такой, чтобы после того, как она была подготовлена для определенного шаблона, она должна автоматически выбирать точки данных из других документов одинакового шаблона.

Какую технологию использовать для написания этой программы? Любая помощь по конкретному алгоритму будет высоко оценена.

источник

2016-11-15 Gunaseelan Mani

Ваше описание очень неоднозначно. Не могли бы вы привести пример ваших документов? – Rob

Для таких неструктурированных данных необходимо преобразовать их в структурированные данные. Попробуйте посмотреть на мешок модели слов и TF-IDF взвешивания
https://en.wikipedia.org/wiki/Bag-of-words_model
https://en.wikipedia.org/wiki/Tf%E2%80%93idf

Затем поищите в единую структуру, как Scikit Учись и его применение в горнодобывающей промышленности текста: http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

источник

2016-11-15 20:35:22 Masoud

Технология, используемая для понимания неструктурированного документа

ответ

Смежные вопросы