Я провел серию долгосрочных обследований с одной группой из 44 респондентов (не так много, но я не мог добиться большего).Сколько переменных следует использовать для кластеризации огромного набора данных?
Мне нужно сгруппировать образец в SPSS с использованием двухэтапного анализа, однако на самом деле существует много переменных. Поскольку было проведено 6 различных анкетных опросов, существует около 200 количественных вопросов (переменных), не говоря уже о качественных.
Мой первый вопрос: следует ли использовать все количественные переменные для выполнения кластерного анализа? Все прочитанные вами руководства выбирают некоторые выбранные переменные для решения кластеризации, а не все из них.
Вторая проблема заключается в том, что я пытался использовать иерархическую кластеризацию со всеми количественными данными, но SPSS уведомлен, что:
Предупреждения
Не достаточно допустимые случаи для проведения кластерного анализа.
... что означает, что набор данных, который у меня не может быть использован для выполнения кластерного анализа ... В этом случае что делать, чтобы выполнить кластерный анализ?