2016-12-06 6 views
0

Я использовал K-mean Algorithm с эвклидовым расстоянием для кластеризации моего набора данных, затем я пробовал косинус-расстояние, но алгоритм не сходится с косинусовыми метриками (он не останавливается - итерация достигает 1000)Kmean Алгоритм и расстояние для косинуса

любое предложение пожалуйста

ответ

0

косинус должно быть в порядке, потому что эквивалентно Евклида на L2 нормированных данных. Если у вас есть ошибка программирования, она должна сходиться.

Таким образом, вы можете L2 нормализовать свои данные, а затем использовать обычные k-средства вместо o сферических k-средних.

Примечание. Мини-партия по дизайну не сходится, если вы используете это. Если вы попробуете партии, это невозможно.

+0

Я не применял L2-норму к данным? данные уменьшаются с использованием PCA, расстояние косинуса применяется на Pc1, Pc2 ?? –

+0

Нет. Никогда не применяйте косинус и PCA. Обычно, когда косинус подходит, тогда PCA - плохая идея. –