Может ли кто-нибудь предложить хороший метод и/или библиотеки для сегментации текста?Python libs для сегментации текста
E.g. У меня есть набор биграмм или триграмм. И затем я хочу сказать, что эти bigrams относятся к одному кластеру, к тому кластеру и так далее.
После того, как я сгруппирован, я буду вручную называть эти кластеры.
Мне нужно создать л как словарь для классификации текстовых комментариев в категории («жалуется», «спам» и так далее) ...
____ edited____
Я остановил свой поиск с gensim lib и LDA. Он работает неплохо.
Вопросы, предлагающие нам ** рекомендовать или найти книгу, инструмент, библиотеку программного обеспечения, учебное пособие или другой ресурс вне сайта **, не относятся к теме для переполнения стека, поскольку они, как правило, привлекают упрямые ответы и спам. Вместо этого [описать проблему] (http://meta.stackoverflow.com/questions/254393) и что было сделано до сих пор, чтобы решить эту проблему. – MattDMo
Я видел много вопросов о nltk. Это может означать, что оно популярно, или это может означать, что его трудно использовать. ;-) –
Да, вопрос довольно общий, но моя проблема - найти хороший алго. Я не могу уточнить его на данный момент – paveltr