2017-02-11 9 views
0

Я новичок в обучении машинам, и у меня есть следующий вопрос. Предположим, что я применил алгоритм классификации для некоторых данных и признал наилучшую комбинацию функций для алгоритма классификации. Если когда-нибудь я получу данные с того же ресурса, которые не имеют целевой функции в предыдущей задаче классификации, могу ли я использовать наилучшую комбинацию функций для классификации непосредственно для задачи кластеризации? (Я знаю, что могу использовать модель, которую я обучил, чтобы предсказать цель данных, но я просто хочу знать, является ли наилучшая комбинация функций одинаковой между алгоритмами классификации и кластеризации)Связь между функциями классификации и кластеризации

Я искал сайты и любой ресурс, который я знаю , но я не могу найти ответ на мой вопрос. Может ли кто-нибудь сказать мне или просто дать мне ссылку? Благодаря!

ответ

0

Я бы сказал, да, если природа цели в обоих случаях одинакова. В идеале мы хотим с легкостью оценить количество функций, которые ортогональны (перпендикулярны) друг к другу в пространстве N, так что каждый может внести максимальный вклад в предсказание.

Возьмите конкретный пример: футболки и большой размер или малый размер. Вам даются данные, которые показывают, что в производственном процессе есть немного усадки материала, что означает, что майки выходят немного нерегулярно, а усадка колеблется между высотой и шириной, но не так много. Данные показывают высоту, ширину и цвет, и вы хотите решить, находятся ли они в большой группе или малом. Вы обнаружите, что высота и ширина важны, но цвета нет, поэтому вы решили использовать высоту и ширину в качестве своих классификационных функций.

Важным моментом является то, что эти две функции были идентифицированы как наиболее ортогональные друг другу, которые должны применяться в контексте классификации или кластеризации. Количество кластеров остается фактором, который необходимо изучить.

0

Это может быть недостаточно.

Например, дерево решений или случайный лес можно проанализировать, чтобы понять важность функций. Но это не скажет вам, какая предварительная обработка (в частности, масштабирование и взвешивание) необходима, чтобы иметь возможность группировать их (в частности, категориальные функции сложны в использовании, все, что не является непрерывным или искаженным, сложно).

Кроме того, данные со временем меняются. Функции, которые были важны когда-то (например, Facebook), теперь бесполезны.