2017-02-13 35 views
0

Я новичок в datascience, и у меня есть более теоретический вопрос об алгоритме k-средних (или любых) кластеризации. На данный момент я пытаюсь сделать сегментацию клиентов на основе поведенческих данных. Мы разработали несколько атрибутов, таких как: - процент, который клиент покупает для продажи, - среднее количество продуктов за раз - средняя цена за продукт - частота покупки товаров в магазине - и несколько других.Сегментация клиентов кластеризацией

Что мы пытаемся выполнить, это группы клиентов, которые ведут себя как друг друга, поэтому мы можем общаться с ними на основе их предпочтений. Проблема в том, что я не уверен, что результаты кластеризации дают нам правильные сегменты, с которыми мы можем работать. Вероятно, это определит другие кластеры, которые хороши для сопоставимого поведения, но не для практического использования.

Мой вопрос заключается в следующем: было бы лучше использовать алгоритм классификатора, чтобы я мог определить targetvariable или использовать алгоритм кластеризации? И если мне нужно выбрать алгоритм кластеризации, было бы лучше уменьшить количество атрибутов, чтобы у меня был немного больше контроля над тем, как будут выглядеть результаты?

Надеюсь, вы, ребята, поможете мне с этой концептуальной проблемой.

ответ

0

Если вы можете использовать, используйте классификацию, а затем всегда используйте классификацию.

Кластеризация является хрупкой и не очень четко определенной проблемой. Вы не хотите создавать бизнес для алгоритмов кластеризации.