2016-03-14 3 views
0

Для моего задания диссертации мне нужно выполнить кластерный анализ на наборе данных с высоким размером, содержащий данные о покупке из розничного магазина (+1000 измерений). Поскольку традиционные алгоритмы кластеризации не очень хорошо подходят для высоких измерений (и уменьшение размера на самом деле не является вариантом), я хотел бы попробовать алгоритмы, специально разработанные для высокоразмерных данных (например, ProClus).Анализ кластера ProClus в R

Здесь, однако, моя проблема начинается. ProClusAlgorithm

Не знаю, какое значение я должен использовать для параметра d. Может кто-нибудь мне помочь?

ответ

0

Это лишь одно из многих ограничений ProClus.

Параметр - это средний размер вашего кластера. Предполагается, что в ваших данных есть кластер , содержащий. Вероятно, это не относится к данным о покупке, но вы можете попробовать. Для редких данных, таких как покупки, я бы предпочел сосредоточиться на частых деталях добычи.

универсальный алгоритм кластеризации. Любой алгоритм кластеризации будет иметь множество параметров, с которыми вам нужно поэкспериментировать.

Для анализа кластеров важно, чтобы вы как-то могли визуализировать или анализировать результат, чтобы узнать, насколько и насколько хорошо работает этот метод.

+0

Назначение специально предназначено для кластеризации клиентов, а не продуктов. Знаете ли вы алгоритм, который может обрабатывать 1000 + размерную разреженную матрицу? – JaperTIA

+0

Множество алгоритмов может * обрабатывать * его. Лучший вопрос: что такое хороший кластер и как его найти? - Это вопрос, на который вы должны ответить. Потому что я не думаю, что кластер ProClus является хорошим кластером для клиентов. Но вы * можете * кластеризовать клиентов частыми наборами предметов, которые они купили. Вы получаете группы клиентов, которые имеют одинаковое поведение покупок. (Остерегайтесь, клиенты * могут * быть в нескольких или ни один из кластеров, и это * хорошо *.) –