2013-09-18 1 views
1

Я хочу выбрать инструмент обработки естественного языка для выполнения общих задач, таких как токенизация, обнаружение предложений, различные тегирования (распознавание имен объектов, ...). мой вопрос состоит из двух частей:сравнение инструментов обработки естественного языка (UIMA, LingPipe, Lucene, Gate, Stanford)

  1. Каковы критерии для выбора обработки естественного языка tool?
  2. Среди (UIMA, LingPipe, Lucene, Gate, Stanford), которые удовлетворяют эти критерии лучше?

и что вы предлагаете?

+0

Не могли бы вы уточнить свои задачи? Сравнение действительно зависит от конкретных задач, которые вы хотите достичь. – Renaud

+0

Инструмент Resourceware Workbench будет делать то, что вы упомянули, и выводить в словарь UIMA. Однако мой ответ потенциально предвзятый и неполный, поэтому я не ставил его в качестве ответа. –

+4

UIMA не является инструментом NLP. Это структура взаимодействия и масштабирования, которая позволяет интегрировать такие инструменты в общую структуру. Существует несколько разновидностей коллекций компонентов UIMA, которые делают то, что вы хотите (например, DKPro Core, ClearTK, U-Compare и т. Д.), Некоторые из которых объединяют инструменты, которые вы упоминаете (например, LingPipe, Stanford и т. Д.). GATE находится где-то посередине. Если вы находитесь на Java, я бы предложил некоторые первые шаги с Apache OpenNLP (ASL) или Stanford CoreNLP (GPL), в зависимости от того, какую лицензию вы предпочитаете. - Разумеется, это вопрос мнения и не подходит для Stackoverflow. – rec

ответ

2

Некоторой общих Критерии:

  1. сколько заданий можно выполнить прилагаемые модели (например, это средство содержит модели для моих задач, таких как испанские токенизации или белки НЭК)?
  2. Как легко мне добавить недостающие инструменты.

BTW, я бы добавил NLTK в ваш список и его excellent, free accompanying book.

 Смежные вопросы

  • Нет связанных вопросов^_^