Мне нужно выполнить классификацию текста на множестве электронных писем. Но все слова в моем тексте мало разрешены. Частота каждого слова по отношению ко всем документам очень мала. слова не так часто повторяются. Поскольку для обучения классификаторов я считаю, что матрица документов с частотой, так как вес не подходит. Не могли бы вы предложить мне, какие другие методы мне нужно использовать.Как подготовить векторы признаков для классификации текста, когда слова в тексте не часто повторяются?
Благодаря