0

Может ли кто-нибудь указать разницу между выбором функций и алгоритмами сокращения кластеризации и размерности?Разница между выбором функции, кластеризацией, алгоритмом уменьшения размерности

алгоритмы выбора функции: позволяет найти доминирующие переменные либо которые наилучшим образом представляют данные или лучшие параметры, чтобы указать класс для например: GBM/лассо

кластеризация позволяет нам указать, какие кластеры переменных четко определить выход

Разве это не так, как алгоритм сокращения размерности? Не включает в себя выбор + кластеризация так же, как алгоритмы сокращения размерности?

ответ

3

Feature Selection:

В машинном обучении и статистике, отбор признаков, также известное как переменного выбора, выбор или переменный выбор подмножества атрибутов, это процесс выбора подмножества соответствующих признаков (переменные, предикторов) для использования в построении модели.

Clustering:

Кластерный анализ или кластеризации является задачей группировки набора объектов таким образом, что объекты в той же группе (так называемый кластер) более похожи (в некотором смысле или другое) друг другу , чем в других группах (кластерах).

Dimensionality Reduction:

В машинном обучении и статистике, уменьшении размерности или сокращения размерности является процессом сокращения числа случайных переменных рассматриваемыми, и может быть разделен на выбор функции и выделение признаков ,

Если у вас есть много функций и вы хотите использовать некоторые из них, вы можете применить выбор функции (т. Е. MRMR). Таким образом, это означает, что вы применили уменьшение размерности.

Однако кластеризация представляет собой набор наборов наблюдений в подмножества (называемые кластерами), так что наблюдения в одном и том же кластере схожи в смысле . Кластеризация - это метод неконтролируемого обучения и общий метод анализа статистических данных, используемый во многих областях (отметьте Clustering in Machine Learning). Если вы хотите группировать (кластер) разные точки данных в соответствии с их функциями, вы можете применить кластеризацию (то есть k-средства) с/без использования уменьшения размерности.

+0

Просто, чтобы убедиться, что я понимаю, что вы сказали, я цитирую пример; Incase У меня есть данные с 1000 входными переменными, а также несколько (~ 5) выходных переменных. У меня также есть 100 значений как входной, так и выходной переменных, и я хочу найти, какая из этих 1000 входных переменных лучше всего влияет на выходные переменные. В этой проблеме я не только хочу найти лучшее подмножество входных переменных, которые представляют максимальную вариацию моих данных, но и найти, какие переменные сильно влияют на мои выходные параметры. Будет ли это проблемой выбора функции или проблемой уменьшения размерности? –

+0

Если вы хотите узнать, какие функции наиболее ценны для вас, вы должны сделать выбор функции (проверьте mRMR). Если вы используете только эти функции в своем алгоритме, а это означает, что вы также уменьшили размерность. Поскольку вы выбрали подмножество функций (размеров) и уменьшили размер. – kamaci