Мне нужно разработать специальное решение для категоризации текста, которое не использует входной текст как набор функций, а некоторые производные параметры, например. количество URL-адресов в тексте, количество слов, представляющих разную речевую часть, среднюю длину слова и т. д. (предположим, что мы можем получить набор функций, предоставленных входным документом).Текстовая категоризация на основе пользовательских функций
Первоначально я думал об использовании OpenNLP для категоризации для меня (через DocumentCategorizerME), но, как я вижу, в качестве возможных функций используется только текстовая строка, и невозможно использовать недискритические функции (например, число с плавающей запятой, которое представляет собой среднюю длину слова).
Так вопросы:
- ли я что-то отсутствует? Можно ли приспособить OpenNLP к использованию его с целыми или с плавающей запятой для категоризации
- Если нет, то в чем предлагаемая библиотека/инструментарий я должен использовать?
Возможный дубликат [Java библиотека обучения для коммерческого использования?] (Http://stackoverflow.com/questions/6829361/java-machine-learning-library-for-commercial-use) –
Вы отметили свой собственный вопрос как дублировать ?? – inquisitive