2

Я работаю над классификацией писем от двух авторов. Мне удалось выполнить то же самое с помощью контролируемого обучения, а также с помощью векторизации TFIDF текста, выбора PCA и SelectPercentile. Я использовал scikit-learn package для достижения того же.Как использовать выбор функций и уменьшение размерности в неконтролируемом обучении?

Теперь я хотел попробовать то же самое, используя алгоритм Unsupervised Learning KMeans, чтобы скопировать электронные письма на две группы. Я создал набор данных, в котором у меня есть каждая точка данных как одна строка в списке python. Поскольку я новичок в неконтролируемой форме, поэтому я хотел спросить, могу ли я применять те же инструменты сокращения размерности, которые используются в контролируемых (TFIDF, PCA и SelectPercentile). Если нет, то каковы их коллеги? Я использую scikit-learn для его кодирования.

Я огляделся вокруг stackoverflow, но не смог получить удовлетворительный ответ. Я действительно застрял в этой точке.

Пожалуйста, помогите!

ответ

0

Ниже приведен методы для сокращения размерности, которые могут быть применены в случае неконтролируемого обучения: -

  1. PCA: анализ главных компонентов
    • Точного РС
    • инкрементного РС
    • Приближенного PCA
    • Kernel PCA
    • Spars EPCA и MiniBatchSparsePCA
  2. Случайные проекции
    • гауссовой случайная проекция
    • разреженной случайная проекция
  3. Характеристика агломерация
    • Стандартные пересчетки

Упомянутые выше некоторые из подходов, которые могут использоваться для уменьшения размерности огромных данных в случае неконтролируемого обучения. Подробнее о деталях here.