Я классификация контента на основе ЛД в общие темы, такие как музыка, технология, искусство, наукиХорошие данные по обучению для классификации текста по LDA?
Это процесс, я использую,
9 темы ->Музыки, Technology , Искусство, Наукаи т. Д..
9 документов ->Music.txt, Technology.txt, Arts.txt, Science.txt и т.д. и т.п.
Я заполнил каждый документ (.txt файл) около 10000 строк содержания того, что я думаю, что это «чистое» категорическое содержание
Я тогда классифицировать тестовый документ, чтобы увидеть, насколько хорошо обучен классификатор
Мой вопрос:
a.) Является ли это эффективным способом классификации текста (используя вышеуказанные шаги)?
b.) Где я должен искать «чистый» тематический контент для заполнения каждого из этих файлов? Источники, которые не являются слишком большими (текстовые данные> 1GB)
классификация является только на «общих» такие темы, как выше
Классический бесплатный источник классифицированных документов Reuters-21578 Текст категоризация Коллекция, http://kdd.ics.uci.edu/databases/reuters21578/reuters21578 .html. Многие другие бесплатные и несвободные NLP coropora и инструменты упоминаются здесь: http://www-nlp.stanford.edu/links/statnlp.html. –