Текстовая категоризация на основе пользовательских функций

Мне нужно разработать специальное решение для категоризации текста, которое не использует входной текст как набор функций, а некоторые производные параметры, например. количество URL-адресов в тексте, количество слов, представляющих разную речевую часть, среднюю длину слова и т. д. (предположим, что мы можем получить набор функций, предоставленных входным документом).Текстовая категоризация на основе пользовательских функций

Первоначально я думал об использовании OpenNLP для категоризации для меня (через DocumentCategorizerME), но, как я вижу, в качестве возможных функций используется только текстовая строка, и невозможно использовать недискритические функции (например, число с плавающей запятой, которое представляет собой среднюю длину слова).

Так вопросы:

ли я что-то отсутствует? Можно ли приспособить OpenNLP к использованию его с целыми или с плавающей запятой для категоризации
Если нет, то в чем предлагаемая библиотека/инструментарий я должен использовать?

источник

2013-06-12 Alex Zakharenko

Возможный дубликат [Java библиотека обучения для коммерческого использования?] (Http://stackoverflow.com/questions/6829361/java-machine-learning-library-for-commercial-use) –

Вы отметили свой собственный вопрос как дублировать ?? – inquisitive

Вы должны попробовать Mallet, чтобы обучить ваш собственный классификатор своими собственными функциями. Here - это учебник, который поможет вам начать работу.

источник

2013-06-13 14:40:20 Renaud

Текстовая категоризация на основе пользовательских функций

ответ

Смежные вопросы