У меня есть специальная лексика с ок. 1M строк в таблице SQL. Каждая строка имеет UID и соответствующую фразу, которая может содержать много слов. Эта таблица редко меняется.Тег, извлекать фразы из свободного текста с помощью пользовательского словаря (python)?
Мне нужен тег, извлечение, фрагмент или распознавание (NER?) Фраз сущностей в документе со свободным текстом против вышеупомянутого пользовательского словаря. Так что для фразы, найденной в свободном тексте, я могу вытащить его UID.
Было бы неплохо, если бы частичные совпадения, а также токены фраз, появляющиеся в другом порядке, были помечены/извлечены в соответствии с некоторыми настройками порога/алгоритма.
- Какой инструмент NLP, предпочтительно основанный на Python, может использовать пользовательский словарный запас в своих методах, извлечениях, chunking или NER из свободного текста?
- Зная цель состоит в извлечении фраз из свободного текста - какой формат лучше всего подходит для этого пользовательского словаря для работы с инструментом НЛП? XML, JSON, деревья, куски IOB, другие?
- Любой инструмент, помогающий преобразовать таблицу SQL (оригинальный пользовательский словарь) в формат словаря, с которым должен работать алгоритм НЛП?
- Нужно ли интегрироваться с другими (непитоновыми) инструментами, такими как GATE, KEA, Lingpipe, Apache Stanbol или OpenNLP?
- Существует ли API для тегов/извлечения и для создания пользовательского словаря?
- Любой опыт работы с RapidMiner или TextRazor? Могут ли эти инструменты помочь с этим?
Спасибо!