4

Я классификация контента на основе ЛД в общие темы, такие как музыка, технология, искусство, наукиХорошие данные по обучению для классификации текста по LDA?

Это процесс, я использую,

9 темы ->Музыки, Technology , Искусство, Наукаи т. Д..

9 документов ->Music.txt, Technology.txt, Arts.txt, Science.txt и т.д. и т.п.

Я заполнил каждый документ (.txt файл) около 10000 строк содержания того, что я думаю, что это «чистое» категорическое содержание

Я тогда классифицировать тестовый документ, чтобы увидеть, насколько хорошо обучен классификатор

Мой вопрос:

a.) Является ли это эффективным способом классификации текста (используя вышеуказанные шаги)?

b.) Где я должен искать «чистый» тематический контент для заполнения каждого из этих файлов? Источники, которые не являются слишком большими (текстовые данные> 1GB)

классификация является только на «общих» такие темы, как выше

+0

Классический бесплатный источник классифицированных документов Reuters-21578 Текст категоризация Коллекция, http://kdd.ics.uci.edu/databases/reuters21578/reuters21578 .html. Многие другие бесплатные и несвободные NLP coropora и инструменты упоминаются здесь: http://www-nlp.stanford.edu/links/statnlp.html. –

ответ

0

а.) Самое простое решение, безусловно, к ближайшему алгоритма соседи (Knn). Фактически, он будет классифицировать новые тексты с категориальным контентом, используя метрику перекрытия .

Вы можете найти RESSOURCES здесь: https://github.com/search?utf8=✓&q=knn+text&type=Repositories&ref=searchresults

1

а) метод, вы описываете звучит хорошо, но все будет зависеть от реализации меченого LDA, который вы используете. Одна из лучших реализаций, которые я знаю, это Stanford Topic Modeling Toolbox. Он не активно развивается, но он отлично работал, когда я его использовал.

b) Вы можете найти актуальный контент на DBPedia, который имеет структурированную онтологию тем/сущностей и ссылки на статьи Википедии по этим темам/сущностям.

1

Я предлагаю вам использовать сумку слов (лук) для каждого класса, который вы используете. Или векторы, где каждый столбец является частотой важных ключевых слов, связанных с классом, на который вы хотите настроить таргетинг.

Что касается словарей, то у вас есть DBPedia, как указано yves, или WordNet.

0

Dataset вопрос: Если вы имеете дело с классификацией живого пользователя кормит, то я думаю, ни один набор данных не будет хватать ваше требование.

Потому что если новый фильм X выпущен, он может не попасть в ваш набор данных классификации, поскольку набор учебных материалов теперь устарел для него.

Для классификации, я предполагаю, что обновляюсь с использованием новейших наборов данных, используйте тестовые наборы данных twitter. Разработайте динамический алгоритм, который обновляет классификатор с помощью последних обновленных наборов данных твитов. Вы можете выбрать верхний 15-20 хэш-тег для каждой категории по вашему выбору, чтобы получить наиболее релевантный набор данных для каждой категории.

Классификатор:

Большинства классификатора использует bag of words model, вы можете попробовать различные классификаторы и посмотреть, что дает лучший результат. см:

  1. http://www.nltk.org/howto/classify.html
  2. http://scikit-learn.org/stable/supervised_learning.html