2016-06-20 7 views
2

Мои оригинальные данные представлены в широком формате, как показано в Таблица A.ANOVA с использованием широкого формата таблицы данных

Предположим, я хочу исследовать, страдают ли ветераны, испытавшие различные туры военной службы, с разных уровней депрессии.

я решил запустить односторонний тест ANOVA по данным с Depression_Score в качестве критерия и «дежурства служило» как фактор. Я знаю, что могу переформатировать данные в длинный формат, как в Таблица B, а затем запустить ANOVA.

Вот мой вопрос, хотя: можно запустить тест ANOVA непосредственно на таблице A без изменения формы данных в таблице B?

Если да, то какие команды R я использовал бы для программирования этого?

Таблица A:

ArmyVet_ID Served_WW2 Served_KoreanWar Served_VietnamWar Depression_Score 
110001   1    0     0    3 
110002   1    0     0    1 
110004   0    1     0    4 
110005   0    1     0    3 
110009   0    0     1    7 
110010   0    0     1    5 

Таблица B:

ArmyVet_ID Served   Depression_Score 
110001   WW2     3 
110002   WW2     1 
110004   KoreanWar    4 
110005   KoreanWar    3 
110009   VietnamWar    7 
110010   VietnamWar    5 

ответ

1

Если вы уроните один из столбцов и кормить его as.matrix, вы можете получить тот же результат, что и прохождение комбинированного коэффициента:

anova(lm(Depression_Score ~ as.matrix(A[3:4]), data=A)) 
#Analysis of Variance Table 
# 
#Response: Depression_Score 
#     Df Sum Sq Mean Sq F value Pr(>F) 
#as.matrix(A[3:4]) 2 16.333 8.1667 5.4444 0.1004 
#Residuals   3 4.500 1.5000 

По сравнению с результатом фактора согласно таблице B в вашем пример:

anova(lm(Depression_Score ~ I(factor(c(1,1,2,2,3,3))), data=A)) 
#Analysis of Variance Table 
# 
#Response: Depression_Score 
#        Df Sum Sq Mean Sq F value Pr(>F) 
#I(factor(c(1, 1, 2, 2, 3, 3))) 2 16.333 8.1667 5.4444 0.1004 
#Residuals      3 4.500 1.5000 
+0

Должно ли это быть 'data = B' во втором случае? Еще одно уточнение. Если бы было 4 столбца факторов (вместо 3, как в этом случае), я бы подал 3 из этих столбцов 'as.matrix' и т. Д.? –

+1

@ user1883050 - это не имеет никакого значения - 'Depression_Score' одинаково как в' A', так и 'B' в ваших примерах. Да, я считаю, что вам нужно всегда использовать столбцы «n-1», так как вы можете делать сравнения «n-1» без удвоения. См. Столбец 'Df' и обратите внимание, что он всегда' 2' в результатах anova. – thelatemail