2016-11-15 14 views
0

Я провел серию долгосрочных обследований с одной группой из 44 респондентов (не так много, но я не мог добиться большего).Сколько переменных следует использовать для кластеризации огромного набора данных?

Мне нужно сгруппировать образец в SPSS с использованием двухэтапного анализа, однако на самом деле существует много переменных. Поскольку было проведено 6 различных анкетных опросов, существует около 200 количественных вопросов (переменных), не говоря уже о качественных.

Мой первый вопрос: следует ли использовать все количественные переменные для выполнения кластерного анализа? Все прочитанные вами руководства выбирают некоторые выбранные переменные для решения кластеризации, а не все из них.

Вторая проблема заключается в том, что я пытался использовать иерархическую кластеризацию со всеми количественными данными, но SPSS уведомлен, что:

Предупреждения

Не достаточно допустимые случаи для проведения кластерного анализа.

... что означает, что набор данных, который у меня не может быть использован для выполнения кластерного анализа ... В этом случае что делать, чтобы выполнить кластерный анализ?

ответ

0

Вопрос 1,

Хотя у вас есть 200 переменных могут существовать сильная корреляция между некоторыми переменными. Поэтому лучше использовать переменные, которые менее тесно связаны друг с другом для проведения кластерного анализа.

В качестве альтернативы вы можете использовать неконтролируемый метод, такой как анализ основных компонентов, чтобы уменьшить размер набора данных и преобразовать его в низкокорритированное пространство.

Вопрос 2,

Следующая ссылка дает хорошее объяснение о вашей ошибке SPSS, http://www-01.ibm.com/support/docview.wss?uid=swg21481097

1

Это звучит весьма проблематично. У вас огромное количество переменных. Вы не сказали, сколько случаев, но похоже, что это может быть всего лишь 44 x 6. Это не очень хорошая комбинация. Какова цель кластерного упражнения?

Вы можете рассмотреть возможность извлечения нескольких основных компонентов из количественных переменных для использования в кластеризации и добавления небольшого числа других переменных. Сообщение из иерархической процедуры кластеризации является предупреждением.