Я ищу для съемки измерений с использованием Stanford CoreNLP. (Если вы можете предложить другой экстрактор, это тоже хорошо).Как можно записывать измерения в Stordford CoreNLP, такие как 5 дюймов, 5 дюймов, 5 дюймов, 5 дюймов
Например, я хочу найти 15кг, 15 кг, 15,0 кг, 15 килограмм, 15 фунтов, 15 фунтов и т.д. Но среди правил добычи CoreNLPs, я дон Для измерения не см.
Конечно, я могу сделать это с чистыми регулярными выражениями, но инструментарий может работать быстрее, и они предлагают возможность вырезать на более высоком уровне, например. для лечения гб и гигабайты вместе, и RAM и памяти как строительные блоки - даже без полного синтаксического разбора - как они строят большие блоки, как 128 ГБ RAM и 8 гигабайт памяти.
Я хочу, чтобы для этого был экстрактор, основанный на правилах, а не на основе машинного обучения), но не вижу его как часть RegexNer или в другом месте. Как мне это сделать?
IBM Named Entity Extraction может это сделать. Регулярные выражения работают эффективно, а не передают текст через каждый. И регулярные выражения объединяются для выражения значимых объектов, например, таких, которые объединяют все единицы измерения в единую концепцию.
Похоже, что это специальная функция IBM Named Entity Extraction. Конечно, регулярные выражения возможны в любой системе, но IBM NEE может работать гораздо эффективнее; а также совместно рассматривать связанные концепции. (Например, почтовые коды принимают десятки форм по всему миру, но все являются «почтовыми кодами» для целей концепций более высокого уровня.) –
Это, безусловно, так: IBM имеет гораздо более быстрый механизм для такого соответствия регулярному выражению. Однако приведенные выше примеры относятся к CoreNLP. TokensRegex (входит в CoreNLP), как правило, достаточно быстр для большинства приложений; особенно если либо (1) шаблоны просты (нет совпадений переменной длины), либо (2) их достаточно мало. –
Если вы ищете решение, основанное на основном регулярном выражении, вы также можете посмотреть [JAPE] GATE (https://gate.ac.uk/releases/gate-5.0-build3244-ALL/doc/tao/splitch7). html) среда регулярного выражения. Я не уверен, что это быстрее, чем у нас, но у него больше поддержки GUI. –