2008-09-15 18 views
3

Как автоматически найти категории для текста на основе контента?Как вы классифицируете контент на основе текста?

+1

В оригинальной публикации не указано, были ли у автора уже категории, и хотели классифицировать, или если они этого не сделали, и их нужно было открыть. – 2008-12-11 12:27:08

ответ

0

Лучший способ категоризации контента, будь то текст или мультимедиа является использование taxonomy. Большинство известных CMS построили поддержку таксономии. Drupal имеет одну из лучших опоры для taxonomy среди различных CMS.

+2

Я не думаю, что я назвал бы это лучшим способом. Я бы назвал это * способом *. – 2008-10-20 19:24:28

2

Я призываю вас, чтобы посмотреть на текст классификации библиотек в комплекте с Natural Language Toolkit , Даже если вы не знакомы с Python, я думаю, вы найдете API достаточно интуитивным. Есть много хороших примеров в NLTK Book, и люди в списке рассылки также очень полезны.

0

Простейший способ сделать категоризацию текста - использовать bag-of-words. Слова/n-граммы слов в каждом документе могут использоваться как функции. С этим вы можете представлять каждый документ как вектор в метрическом пространстве. Впоследствии вы можете применить clustering для группировки документов, похожих по содержанию. Например, вы можете использовать кластеризацию k-mean с этими векторами для объединения лексически подобных документов вместе.

Инструментальный инструмент для интеллектуального анализа текста на основе Python, NTLK отлично подходит для таких задач быстро (в общем, python неплохо подходит для работы с текстом). Вы можете найти это полезным.