2013-08-08 5 views
2

Я построил модель сегментации с использованием кластеризации k-mean.Как сегментировать новые данные с помощью существующей модели K -средства?

Может ли кто-нибудь описать процесс назначения новых данных в эти сегменты?

В настоящее время я применяю те же преобразования/стандартизация/выбросы, что и я, чтобы построить модель, а затем вычислить эвклидовое расстояние. Минимальное расстояние - это сегмент, в который записывается запись.

Но, я вижу, что большинство падают на один конкретный сегмент, и мне интересно, пропустил ли я что-то по пути?

Благодаря

ответ

1

Классифицируя новое наблюдение, основанное на евклидова расстояния до ближайшего среднего может работать в некоторых случаях, однако он игнорирует форму/размер исходного кластера.

Один из способов обойти это было бы использовать исходные данные кластера, чтобы помочь классифицировать каждое новое наблюдение (например, с использованием Knn http://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm)

В качестве альтернативы, вы можете рассмотреть возможность использования альтернативной методики кластеризации, такие как СМЕСИ гауссианы:
http://en.wikipedia.org/wiki/Mixture_model
http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/mixture.html

Используя это, вы не только получить среднее значение для каждого кластера, но и дисперсию. Для каждого нового наблюдения вы можете вычислить вероятность того, что он принадлежит каждому кластеру. Эта вероятность учитывает исходный размер/форму кластера. Также лучше работать с типом типа «мягкого» подхода, потому что он говорит вам, насколько сильно каждое новое наблюдение относится к каждому кластеру, и вы можете делать такие вещи, как наблюдения тегов, как выбросы, превышающие некоторые стандартные отклонения от всех кластеров ,