Как работает APPLY_KMEANS в Vertica

Я тестирую средства машинного обучения в Vertica. Я понимаю, как работает KMEANS, так как он просто делит данные на кластеры. Однако я не понимаю, как работает APPLY_KMEANS по новым данным. Мне кажется, что это больше похоже на метод классификации. Поскольку он классифицирует новые данные в существующих кластерах. Итак, какой алгоритм используется (ближайший сосед K)? Это не очень ясно из документации.Как работает APPLY_KMEANS в Vertica

источник

2017-01-24 valenzio

к -средним является кластеризацией алгоритма (не классификация!), Что перебирает 2 шага: шаг

: присваивания Присвоить каждую точку центроида
шаг Обновления: координаты централизованных обновлений

Когда вы строите свой k-me ans, вы сначала инициализируете центроиды (разная стратегия, может быть случайной инициализацией), то вы повторяете до тех пор, пока ваша кластеризация не будет нормально (ваша ошибка ниже заданного порога).

Что определяет ваша модель на самом деле ваши центроиды.

При использовании APPLY_KMEANS вы выполните шаг назначения, используя данные из вашего запроса и центроиды из вашей модели. Точки будут назначаться кластерам в зависимости от их расстояния по отношению к центроидам.

Надеется, что это помогает pltrdy

Примечанию о Кластеризации против классификации:
Мы можем быть склонны думать, что кластеризация является своим родом классификации. Тем не менее, классификация должна относиться только к supervised learning, тогда как кластеризация соответствует unsupervised learning. Таким образом, не делайте этого :)

источник

2017-01-24 15:43:06 pltrdy

Как вы выразились, кажется, что APPLY_KMEANS - это классификация, поскольку он выполняет только шаг назначения. Таким образом, K-средство - это, в основном, обучение в отношении APPLY_KMEANS. При использовании K-средств само по себе, чем это неконтролируемый алгоритм кластеризации. При использовании APPLY_KMEANS с новыми данными координаты центроидов не меняются, верно? Что бы сделать это алгоритмом классификации, нет? – valenzio

Это имеет смысл. k-mean - это алгоритм кластеризации, который не является классификационным. Тем не менее, «применять kmeans» на самом деле является другим алгоритмом, использующим k-средние модельные центроиды для классификации данных. Таким образом, можно рассматривать как многоклассовый алгоритм классификации. Я все еще говорю «можно увидеть», потому что я нахожу это двусмысленным, поэтому он не должен появляться как «применять kmeans = классификацию», поскольку он будет пропускать. Но вы поняли. – pltrdy

ответ

Смежные вопросы