2017-02-18 25 views
-2

Я хочу использовать k-средства для группировки моих результатов, но у меня есть много вопросов. http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeansPython K-Means Z-Transfrom

Мой ввод данных выглядит следующим образом:

ID ABC XYZ UVW MSE 10 A X U 102000 12 B Y V 9000

Можно сгруппировать различные типы входных данных с K-Means? Как в моем случае символы и цифры?

K-означает выбор случайного центра для процесса кластеризации. Если я запускаю кластеризацию, часто мои результаты меняются или результат - стабильный результат?

Я хочу знать, какой идентификатор находится в кластере. Как я получаю эту информацию из программного обеспечения?

EDIT:

Если бы я только Кластер мой MSE, а затем проверить, какие атрибуты осуществляются, это решение, которое имеет смысл?

+0

Что вы подразумеваете под Z-transform? Единственное Z-преобразование, которое я знаю, это тот, который мы используем в обработке сигналов ... Перефразируйте ваши первые два вопроса, они довольно запутываются. – MMF

+0

Я меняю вопрос. Надеюсь, что я получу яснее. – 123GuteLaune

ответ

0

K-означает пытается минимизировать отклонение (= квадрат ошибок).

Какова бы квадратная погрешность abc и def be?

Используйте его только для непрерывных данных. И не ожидайте, что это сделает магию, что вы получаете, как правило, только очень плохое приближение к тому, что вы искали. Выполнение его несколько раз обычно дает вам разные результаты, потому что не существует «хорошего» результата.

+0

Если я устану, мои переменные улучшат результаты? Когда да, какая стандартизация подходит (я читаю что-то о z-преобразовании) – 123GuteLaune

+0

Нет, z оценки работают только с данными, которые уже * непрерывны. Это не поможет вам удалить артефакты из дискретных/категориальных данных. –