2013-06-12 1 views
0

Мне нужно разработать специальное решение для категоризации текста, которое не использует входной текст как набор функций, а некоторые производные параметры, например. количество URL-адресов в тексте, количество слов, представляющих разную речевую часть, среднюю длину слова и т. д. (предположим, что мы можем получить набор функций, предоставленных входным документом).Текстовая категоризация на основе пользовательских функций

Первоначально я думал об использовании OpenNLP для категоризации для меня (через DocumentCategorizerME), но, как я вижу, в качестве возможных функций используется только текстовая строка, и невозможно использовать недискритические функции (например, число с плавающей запятой, которое представляет собой среднюю длину слова).

Так вопросы:

  1. ли я что-то отсутствует? Можно ли приспособить OpenNLP к использованию его с целыми или с плавающей запятой для категоризации
  2. Если нет, то в чем предлагаемая библиотека/инструментарий я должен использовать?
+0

Возможный дубликат [Java библиотека обучения для коммерческого использования?] (Http://stackoverflow.com/questions/6829361/java-machine-learning-library-for-commercial-use) –

+0

Вы отметили свой собственный вопрос как дублировать ?? – inquisitive

ответ

1

Вы должны попробовать Mallet, чтобы обучить ваш собственный классификатор своими собственными функциями. Here - это учебник, который поможет вам начать работу.

 Смежные вопросы

  • Нет связанных вопросов^_^