2015-05-21 6 views
2

Я разработчик, которому было поручено разработать, как были собраны предыдущие результаты с использованием SPSS, поэтому мы можем повторить процесс с некоторыми новыми данными. Мы не можем спросить человека, который сделал оригинальный анализ, потому что он, к сожалению, уже не с нами, поэтому мне выпало распутать, что он сделал.SPSS - Использование кластеризации K-факторов после анализа факторов

Я не специалист по статистике и не нуждаюсь в понимании принципов. Мне просто нужно знать, к каким пунктам меню нужно перейти.

Мы провели опрос, в котором было задано много вопросов о 10 000 человек. Для анализа используется подмножество из 15 вопросов.

Я знаю, что факторный анализ был выполнен для уменьшения данных до 4 наборов. К-мерная кластеризация затем использовалась для нахождения кластерных центров. Это то, что я сейчас.

Я разработал, как сделать факторный анализ, чтобы получить матрицу коэффициентов компонента, которая соответствует данным, которые у меня есть в моей базе данных. Это было сделано, перейдя в «Анализ»> «Уменьшение размеров»> «Фактор». Затем я выбрал фиксированное количество факторов (4) из раздела «Извлечение», поворот «Варимакс» из раздела «Вращение» и проверил «Матрицу коэффициентов коэффициента отображения» в разделе «Оценка».

Это дало данные, как это:

 
Matrix Value 1 Value 2 Value 3 Value 4 
Q1  -0.0756 0.2134 -0.0245 -0.1236 
Q2  ...  ...  ...  ... 
Q3  ...  ...  ...  ... 
... 

То, что я понятия не имею о том, как продолжить это делать K-средства кластеризации.

Результаты у меня во взгляде базы данных, как это:

 
Cluster centers Value 1 Value 2 Value 3 Value 4 Value 5 
FAC1_1   -0.8373 -0.5766 0.2100 1.3499 0.2940 
FAC2_1   ...  ...  ...  ...  ... 
FAC3_1   ...  ...  ...  ...  ... 
FAC4_1   ...  ...  ...  ...  ... 

Теперь я знаю, что к-средства кластеризации может быть сделано на исходных данных, установленных с помощью Анализировать> Классифицировать> K-средства кластера, но я не знаю, как ссылаться на множительный анализ, который я сделал.

Может ли кто-нибудь дать мне некоторое представление о том, как создавать эти кластерные центры с использованием SPSS?

ответ

4

В графическом интерфейсе для анализа FACTOR (анализ> коэффициент уменьшения размеров), у вас есть поддиалог «Оценка», убедитесь, что отмечен параметр «Сохранить как переменные».

Это сохранит множители факторов в ваших данных, то есть переменные FAC1_1, FAC2_1, FAC3_1, FAC4_1.

Именно эти переменные необходимо добавить в качестве входных переменных в графический интерфейс K-mean.

Лучше настроить работу в синтаксисе, чтобы когда-либо кто-либо еще захотел реплицировать вашу работу, они могут это сделать (и в идеале ваш предшественник должен был оставить свои хлебные крошки в документе синтаксиса тоже. попытайтесь найти этот документ, если есть удаленная возможность его существования, файл расширения .sps).

Вот как вы бы установить это в синтаксисе и что его/ее разработки, возможно, выглядели как:

/* Replicate the factor analysis (four factors) and save the factor score variables */. 
FACTOR 
    /VARIABLES < INPUT THE 15 VARIABLES HERE > 
    /MISSING LISTWISE 
    /ANALYSIS < INPUT THE 15 VARIABLES HERE > 
    /PRINT EXTRACTION ROTATION FSCORE 
    /FORMAT SORT BLANK(.10) 
    /PLOT ROTATION 
    /CRITERIA FACTORS(4) ITERATE(25) 
    /EXTRACTION PC 
    /CRITERIA ITERATE(25) 
    /ROTATION VARIMAX 
    /SAVE REG(ALL) 
    /METHOD=CORRELATION. 

/* Replicate the clustering using factor scores as inputs, generating 5 segments */. 
QUICK CLUSTER FAC1_1 FAC2_1 FAC3_1 FAC4_1 
    /MISSING=LISTWISE 
    /CRITERIA=CLUSTER(5) MXITER(10) CONVERGE(0) 
    /METHOD=KMEANS(NOUPDATE) 
    /SAVE CLUSTER (Seg5) 
    /PRINT INITIAL. 

/* Check centroids match*/. 
MEANS FAC1_1 FAC2_1 FAC3_1 FAC4_1 BY Seg5 /CELLS MEAN. 

Если вы можете повторить переменный ФАКТОР оценку точности совпадать, то, что это хорошее начало , если центроиды не совпадают, то, если коэффициенты коэффициентов совпадают, тогда это может быть только/скорее всего, потому что назначения сегментов теперь разные.Несмотря на использование одного и того же ввода/методологии, если порядок заказа отличается от ранее, K-Means QUICK CLUSTER может и, скорее всего, будет давать разные назначения сегментов из-за случайных стартовых точек.

Я не знаю никоим образом об этом, но в принципе это возможные шаги, которые он предпринял.

+0

Вы, сэр, являются абсолютным гением. Я нашел файл sps, но он, к сожалению, не содержал необходимой мне информации, однако он имеет множество других пользовательских таблиц, которые могут быть неоценимы. Но сохранение переменных и использование их для кластеризации k-значений дали мне именно то, что я получил после. Большое большое спасибо! –

0

Если у вас есть доступ к системе, в которой выполнялась оригинальная работа, найдите файл журнала (обычно называемый stat.jnl и сохраняемый в месте, указанном в разделе «Редактирование»> «Параметры»> «Файлы»). Если ведение журнала действовало с помощью опции append, оно будет иметь все команды, которые пользователь выполнил.

0

Я делаю тот же набор анализов для проекта. Как раз для вашей информации, двухступенчатый процесс кластеризации, предлагаемый SPSS, более надежный, чем K-mean (Punj & Stewart 1983). В K-средствах, как вы собираетесь выбрать K ?! Вы также можете использовать пакет clvalid для получения оптимального количества K, если вы настаиваете на использовании K-средств.

Punj, G., & Стюарт, D. W. (1983). Анализ кластеров в маркетинговых исследованиях: обзор и предложения по применению. Журнал маркетинговых исследований, 134-148.

1

Я сделал такой же анализ для моего проекта. Сначала выполните факторный анализ, как только вы сможете извлечь хорошую дисперсию из факторного анализа, попробуйте сохранить коэффициенты факторов (в SPSS).

Для сохранения коэффициентов множителей перейдите к пункту «Анализ» -> «Уменьшение размеров» -> «Фактор->« Оценка »->« Сохранить как переменные ».

Как вы сохраните оценки, в представлении переменной появятся новые переменные, основанные на количестве компонентов.

После того, как вы смогли сохранить множество факторов, перейдите в «Анализ»> «Классифицировать-> K-Средства» и выберите новые переменные (Factors Scores), чтобы ввести количество исходных кластеров, которое требуется, а затем OK.