0

У меня есть набор данных со списком клиентов и их предпочтениями в отношении продукта. В принципе, это простой CSV с столбцом под названием «CUSTOMER» и еще пять столбцов, называемых «PRODUCT_WANTED_A», «PRODUCT_WANTED_B» и т. Д.R: Кластеризация клиентов на основе аналогичных интересов продукта для события

Я спросил у этих клиентов, хотят ли они узнать больше о конкретном продукте, и ответы могут быть просто ДА или НЕТ (1 или 0 в наборе данных). Набор данных можно загрузить here. Очевидно, что в этих 5 столбцах будут клиенты с разными интересами, основанные на сочетании их ДА или НЕТ.

Моя цель - понять, какие клиенты похожи на других в таких интересах. Это поможет мне управлять повесткой дня презентаций продуктов, и на каждой встрече я хотел бы понять, как лучше всего ее группировать. Я начал с иерархическим сюжетом, как это:

customer_list <- read.csv("customers_products_wanted.csv", sep=",", header = TRUE) 
customer.hclust <- hclust(dist(customers_list)) 
plot(customer.hclust, customer_list$CUSTOMER) 
library(rect.hclust) 
rect.clust(customer.hplot,5) 

Это сюжет я, попросив 5 кластеров:

enter image description here

Пробовал то же самое, но с 10 кластеров:

enter image description here

Вопрос 1: Я знаю, что всегда сложно сказать, но, глядя на диаграммы и данные, что бы вы сделали «вырезать» группы клиентов? 5? 10?

Я просматривал результаты, и в той же группе у меня был CUSTOMER112 с 1,0,1,0,1 в качестве их предпочтений вместе с CUSTOMER 110 (1,1,1,1,1), CUSTOMER106 (1,1,1,1,0) и так далее. «Расстояние» может быть правильным, но в данной группе у меня есть клиенты с некоторыми существенными различиями в их предпочтениях.

Вопрос 2: Я не знаю, является ли это случаем полного незнания о кластеризации, коде, который я использовал, или даже наборе данных. На основе вашего опыта, каков будет ваш подход к наилучшей кластеризации в этом случае?

Любые комментарии будут высоко оценены. Как вы видите, я приложил некоторые усилия, но все еще сомневаюсь.

Большое спасибо!

Ricardo

+1

Почему, по вашему мнению, должно быть 5 или 10 кластеров? Откуда взялись эти цифры? 10 явно слишком много, поскольку у вас есть кластеры с 1 или 2 членами. Если вы посмотрите на график, похоже, у вас есть 2 или 4 кластера. Вы читали помощь для hclust? Существуют разные метрики расстояний, которые изменят результат, посмотрите, появляется ли такое же количество кластеров. – Ben

+0

Привет @Ben, спасибо за ответ. Это мое первое кластерное упражнение, поэтому я предполагаю, что 5 или 10 были явно ошибкой. Как идея, от кого-то, кого вы испытали, какова будет ваша рекомендация? Используйте другую высоту? Кстати, есть ли у вас хороший источник информации о интерпретации дендрограмм? Благодаря! –

+1

Возможно, вы могли бы разделить своих клиентов на основе интереса к одному или двум продуктам в сетку. Посмотрите примеры 'facet_grid' из' ggplot2'. Конечно, сделайте это, используя продукты, которые имеют более равномерное распространение. –

ответ

0

Все ответы были важны, но @Ben рекомендация видео и советы @Samuel Тан на ломке клиентов в сетках, я нашел хороший способ справиться с этим.

Видео дало мне много информации о «шумных» переменных в иерархической кластеризации, и рекомендации по сетке помогли мне задуматься над тем, что данные действительно пытаются рассказать мне.

При этом основной процесс очистки данных исключает всех клиентов, не интересующихся никакими продуктами (это очевидно, но я не обращал на это внимания вначале). Затем я игнорировал клиентов с особым интересом (один продукт). Это было сделано, потому что этим клиентам не нужно было посещать серию семинаров, которые я планирую (они просто хотят слушать о одном продукте).

Оценка всех остальных, заинтересованных в более чем одном продукте, я понял, что смесь продуктов может указывать на лучшую классификацию. Оттуда я сгруппировал клиентов в 3 кластера: возможности интеграции (2 или 3 продукта), возможности конвергенции (4 продукта) и возможности трансформации (все продукты).

Теперь мне ясно, на каких клиентах я должен сосредоточиться на своих семинарах, и планировать свои рекламные кампании после семинара, используя материалы, предназначенные для каждой группы клиентов (интеграция, конвергенция, трансформация).

Спасибо за все советы!

Ricardo