-1

У меня есть тысячи документов txt, хранящихся в 8 разных папках файлов, которые помечены тегами (на самом деле они являются классами 1,2,3 ...). И у меня есть еще 80 документов txt, которые еще не имеют категорий. Я пытаюсь найти лучший способ их категоризации.Как классифицировать .txt документы в некоторые другие .txt-категории с помощью контролируемого обучения

Я уже закончил сегментацию текста и удалил английские буквы (потому что это китайские тексты). Что делать дальше?

Я могу получить слова с самыми высокими значениями TF-IDF, но не знаю, как это сделать дальше. Кажется, я должен превратить этот текст в векторы и обучить классификатор, но я не знаю, как это сделать.

+1

Рассмотрите возможность взглянуть на http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html. – DJanssens

ответ

0

Вместо того чтобы внедрять собственные модели слов, вы могли бы использовать, например, doc2vec из gensim. Он предлагает отличную производительность, которая будет трудно соответствовать вашей собственной реализации. Вы можете выбирать между иерархическим softmax или отрицательной выборкой.

 Смежные вопросы

  • Нет связанных вопросов^_^