У меня есть тысячи документов txt, хранящихся в 8 разных папках файлов, которые помечены тегами (на самом деле они являются классами 1,2,3 ...). И у меня есть еще 80 документов txt, которые еще не имеют категорий. Я пытаюсь найти лучший способ их категоризации.Как классифицировать .txt документы в некоторые другие .txt-категории с помощью контролируемого обучения
Я уже закончил сегментацию текста и удалил английские буквы (потому что это китайские тексты). Что делать дальше?
Я могу получить слова с самыми высокими значениями TF-IDF, но не знаю, как это сделать дальше. Кажется, я должен превратить этот текст в векторы и обучить классификатор, но я не знаю, как это сделать.
Рассмотрите возможность взглянуть на http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html. – DJanssens