2017-01-07 15 views
2

Я построил простую линейную регрессионную модель с «Оценка» в качестве зависимой переменной, а «Активность» - как независимая. «Активность» имеет 5 уровней: «слушать» (контрольный уровень), «читать1», «читать2», «смотреть1», «смотреть2».Как интерпретировать вывод TukeyHSD в R? (по отношению к базовой модели регрессии)

Call: 
lm(formula = Score ~ Activity) 

Residuals: 
    Min  1Q Median  3Q  Max 
-22.6154 -8.6154 -0.6154 7.1346 31.3846 

Coefficients: 
       Estimate Std. Error t value Pr(>|t|)  
(Intercept)  41.615  2.553 16.302 <2e-16 *** 
Activityread1  6.385  7.937 0.804 0.4254  
Activityread2 20.885  9.552 2.186 0.0340 * 
Activitywatch1 3.885  4.315 0.900 0.3728  
Activitywatch2 -11.415  6.357 -1.796 0.0792 . 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 13.02 on 45 degrees of freedom 
Multiple R-squared: 0.1901, Adjusted R-squared: 0.1181 
F-statistic: 2.64 on 4 and 45 DF, p-value: 0.04594 

Для того, чтобы получить все попарные сравнения, я выполнил тест TukeyHSD, выход которого я с трудом интерпретацией. В то время как выход модели показывает, что единственный существенный эффект, который мы имеем, связан с контрастом между «listen» и «read2», результаты TukeyHSD показывают, что существует только значительный контраст между «watch2» и «read2». Что это значит?

> TukeyHSD(aov(mod4), "Activity") 
 
    Tukey multiple comparisons of means 
 
    95% family-wise confidence level 
 

 
Fit: aov(formula = mod4) 
 

 
$Activity 
 
        diff  lwr  upr  p adj 
 
read1-listen 6.384615 -16.168371 28.937602 0.9279144 
 
read2-listen 20.884615 -6.256626 48.025857 0.2034549 
 
watch1-listen 3.884615 -8.376548 16.145779 0.8952957 
 
watch2-listen -11.415385 -29.477206 6.646437 0.3885969 
 
read2-read1 14.500000 -19.264610 48.264610 0.7397464 
 
watch1-read1 -2.500000 -26.031639 21.031639 0.9981234 
 
watch2-read1 -17.800000 -44.811688 9.211688 0.3466391 
 
watch1-read2 -17.000000 -44.959754 10.959754 0.4278714 
 
watch2-read2 -32.300000 -63.245777 -1.354223 0.0368820 
 
watch2-watch1 -15.300000 -34.569930 3.969930 0.1783961

ответ

0

В вашем первоначальном резюме модели, Estimate показывает оценочную разницу в среднем для каждой группы по отношению к среднему значению группы «слушать» (40.615). Группа «read2», имеющая наибольший сдвиг (+20.885) от группы «listen», называется значимой с p = .0340, когда вычисляются только эти 4 сравнения.

Поскольку TUKEYHSD выполняет все попарные сравнения для средств группы (а не только к опорному уровню «слушать» больше), он также выполняет корректировку р-значение для учета всех этих дополнительных испытаний. Причина в том, что если вы выполнили 20 сравнений по случайным данным, вы могли бы ожидать, что один (1/20 или 0,05) будет называться значимым с p < .05 просто из-за того, что он выполняет множество тестов. При настройке p-value, ваше первоначально значительное сравнение между «listen-read2» больше не считается столь значительным.

Но большая разница между «watch2 - read2» (-32.3), которая не была протестирована в исходной модели, достаточно велика, чтобы считаться значимой с p = .03688 даже после выполнения всех дополнительных корректировок сравнения.

Надеюсь, что это поможет, вы можете узнать больше о проблеме множественного сравнения here . И см. для реализации R самых популярных методов.

+0

И что я должен сообщить, когда дело доходит до отчетности по модели? Должен ли вывод TukeyHSD быть единственным, что я принимаю во внимание? – fannilegoza

+0

, который будет зависеть от того, что было вашим исследованием/гипотезой, я предполагаю, что идея заключалась в том, что группы чтения и наблюдения будут лучше работать по сравнению с группой слушателей (более активное участие). Если все, о чем вы заботитесь, заключается в том, что улучшение от исходной линии прослушивания игнорирует результаты TukeyHSD и сообщает значения p из модели – Nate

 Смежные вопросы

  • Нет связанных вопросов^_^