2016-01-28 4 views
1

Может ли кто-нибудь предложить хороший метод и/или библиотеки для сегментации текста?Python libs для сегментации текста

E.g. У меня есть набор биграмм или триграмм. И затем я хочу сказать, что эти bigrams относятся к одному кластеру, к тому кластеру и так далее.

После того, как я сгруппирован, я буду вручную называть эти кластеры.

Мне нужно создать л как словарь для классификации текстовых комментариев в категории («жалуется», «спам» и так далее) ...

____ edited____

Я остановил свой поиск с gensim lib и LDA. Он работает неплохо.

+0

Вопросы, предлагающие нам ** рекомендовать или найти книгу, инструмент, библиотеку программного обеспечения, учебное пособие или другой ресурс вне сайта **, не относятся к теме для переполнения стека, поскольку они, как правило, привлекают упрямые ответы и спам. Вместо этого [описать проблему] (http://meta.stackoverflow.com/questions/254393) и что было сделано до сих пор, чтобы решить эту проблему. – MattDMo

+0

Я видел много вопросов о nltk. Это может означать, что оно популярно, или это может означать, что его трудно использовать. ;-) –

+0

Да, вопрос довольно общий, но моя проблема - найти хороший алго. Я не могу уточнить его на данный момент – paveltr

ответ

0

nltk, или Инструмент Natural Language Toolkit - это инструмент для обработки текста в Python. Это будет обрабатывать аспекты сегментации вашего проекта.

В частности, вас может заинтересовать модуль tokenize! See the documentation for more details.

+0

Теперь я связываюсь с gensim lib. Я проверю результаты – paveltr