Как автоматически найти категории для текста на основе контента?Как вы классифицируете контент на основе текста?
ответ
Существует хорошая статья, написанная на этом: http://www.cs.utexas.edu/users/hyukcho/classificationAlgorithm.html
Ссылка сейчас мертва :( – Tessmore 2014-03-17 21:44:18
Лучший способ категоризации контента, будь то текст или мультимедиа является использование taxonomy. Большинство известных CMS построили поддержку таксономии. Drupal имеет одну из лучших опоры для taxonomy среди различных CMS.
Я не думаю, что я назвал бы это лучшим способом. Я бы назвал это * способом *. – 2008-10-20 19:24:28
- Read Data Mining: Practical Machine Learning Tools and Techniques - Ian H. Witten, Eibe Frank
- Использование Weka или Orange
Я призываю вас, чтобы посмотреть на текст классификации библиотек в комплекте с Natural Language Toolkit , Даже если вы не знакомы с Python, я думаю, вы найдете API достаточно интуитивным. Есть много хороших примеров в NLTK Book, и люди в списке рассылки также очень полезны.
Простейший способ сделать категоризацию текста - использовать bag-of-words. Слова/n-граммы слов в каждом документе могут использоваться как функции. С этим вы можете представлять каждый документ как вектор в метрическом пространстве. Впоследствии вы можете применить clustering для группировки документов, похожих по содержанию. Например, вы можете использовать кластеризацию k-mean с этими векторами для объединения лексически подобных документов вместе.
Инструментальный инструмент для интеллектуального анализа текста на основе Python, NTLK отлично подходит для таких задач быстро (в общем, python неплохо подходит для работы с текстом). Вы можете найти это полезным.
В оригинальной публикации не указано, были ли у автора уже категории, и хотели классифицировать, или если они этого не сделали, и их нужно было открыть. – 2008-12-11 12:27:08