Для моего задания диссертации мне нужно выполнить кластерный анализ на наборе данных с высоким размером, содержащий данные о покупке из розничного магазина (+1000 измерений). Поскольку традиционные алгоритмы кластеризации не очень хорошо подходят для высоких измерений (и уменьшение размера на самом деле не является вариантом), я хотел бы попробовать алгоритмы, специально разработанные для высокоразмерных данных (например, ProClus).Анализ кластера ProClus в R
Здесь, однако, моя проблема начинается.
Не знаю, какое значение я должен использовать для параметра d. Может кто-нибудь мне помочь?
Назначение специально предназначено для кластеризации клиентов, а не продуктов. Знаете ли вы алгоритм, который может обрабатывать 1000 + размерную разреженную матрицу? – JaperTIA
Множество алгоритмов может * обрабатывать * его. Лучший вопрос: что такое хороший кластер и как его найти? - Это вопрос, на который вы должны ответить. Потому что я не думаю, что кластер ProClus является хорошим кластером для клиентов. Но вы * можете * кластеризовать клиентов частыми наборами предметов, которые они купили. Вы получаете группы клиентов, которые имеют одинаковое поведение покупок. (Остерегайтесь, клиенты * могут * быть в нескольких или ни один из кластеров, и это * хорошо *.) –