Как использовать выбор функций и уменьшение размерности в неконтролируемом обучении?

Я работаю над классификацией писем от двух авторов. Мне удалось выполнить то же самое с помощью контролируемого обучения, а также с помощью векторизации TFIDF текста, выбора PCA и SelectPercentile. Я использовал scikit-learn package для достижения того же.Как использовать выбор функций и уменьшение размерности в неконтролируемом обучении?

Теперь я хотел попробовать то же самое, используя алгоритм Unsupervised Learning KMeans, чтобы скопировать электронные письма на две группы. Я создал набор данных, в котором у меня есть каждая точка данных как одна строка в списке python. Поскольку я новичок в неконтролируемой форме, поэтому я хотел спросить, могу ли я применять те же инструменты сокращения размерности, которые используются в контролируемых (TFIDF, PCA и SelectPercentile). Если нет, то каковы их коллеги? Я использую scikit-learn для его кодирования.

Я огляделся вокруг stackoverflow, но не смог получить удовлетворительный ответ. Я действительно застрял в этой точке.

Пожалуйста, помогите!

источник

2016-05-27 harshlal028

Ниже приведен методы для сокращения размерности, которые могут быть применены в случае неконтролируемого обучения: -

PCA: анализ главных компонентов
- Точного РС
- инкрементного РС
- Приближенного PCA
- Kernel PCA
- Spars EPCA и MiniBatchSparsePCA
Случайные проекции
- гауссовой случайная проекция
- разреженной случайная проекция
Характеристика агломерация
- Стандартные пересчетки

Упомянутые выше некоторые из подходов, которые могут использоваться для уменьшения размерности огромных данных в случае неконтролируемого обучения. Подробнее о деталях here.

источник

2016-06-01 05:29:05 harshlal028

Как использовать выбор функций и уменьшение размерности в неконтролируемом обучении?

ответ

Смежные вопросы