Я работаю над классификацией писем от двух авторов. Мне удалось выполнить то же самое с помощью контролируемого обучения, а также с помощью векторизации TFIDF текста, выбора PCA и SelectPercentile. Я использовал scikit-learn package для достижения того же.Как использовать выбор функций и уменьшение размерности в неконтролируемом обучении?
Теперь я хотел попробовать то же самое, используя алгоритм Unsupervised Learning KMeans, чтобы скопировать электронные письма на две группы. Я создал набор данных, в котором у меня есть каждая точка данных как одна строка в списке python. Поскольку я новичок в неконтролируемой форме, поэтому я хотел спросить, могу ли я применять те же инструменты сокращения размерности, которые используются в контролируемых (TFIDF, PCA и SelectPercentile). Если нет, то каковы их коллеги? Я использую scikit-learn для его кодирования.
Я огляделся вокруг stackoverflow, но не смог получить удовлетворительный ответ. Я действительно застрял в этой точке.
Пожалуйста, помогите!