2016-11-15 4 views
-1

У меня есть несколько неструктурированных документов (PDF и HTML). Эти неструктурированные документы имеют предсказуемую картину. И есть «n» экземпляров этих шаблонов.Технология, используемая для понимания неструктурированного документа

Мне нужно написать программу для извлечения информации из этих документов. Программа должна быть такой, чтобы после того, как она была подготовлена ​​для определенного шаблона, она должна автоматически выбирать точки данных из других документов одинакового шаблона.

Какую технологию использовать для написания этой программы? Любая помощь по конкретному алгоритму будет высоко оценена.

+1

Ваше описание очень неоднозначно. Не могли бы вы привести пример ваших документов? – Rob

ответ

0

Для таких неструктурированных данных необходимо преобразовать их в структурированные данные. Попробуйте посмотреть на мешок модели слов и TF-IDF взвешивания
https://en.wikipedia.org/wiki/Bag-of-words_model
https://en.wikipedia.org/wiki/Tf%E2%80%93idf

Затем поищите в единую структуру, как Scikit Учись и его применение в горнодобывающей промышленности текста: http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html