2012-03-31 6 views
2

У меня есть набор данных с 9 непрерывными независимыми переменными, которые я пытаюсь выбрать между подходящей моделью для одной процентной (зависимой) переменной: Гол.R: Выбор переменной для множественной регрессии с переменной процентной зависимой переменной, серьезная коллинеарность

К сожалению, я знаю, что между несколькими переменными будет серьезная коллинеарность.

Я попытался с помощью функции stepAIC в R для отбора переменных, но этот метод, как ни странно, кажется, чувствителен к порядку, в котором переменные перечислены в уравнении ...

Вот мой код R (б/с, это процентные данные, я использую логит преобразование для показателя):

library(MASS) 
library(car) 

data.tst = read.table("data.txt",header=T) 
data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) 

step = stepAIC(data.lm, direction="both") 
summary(step) 

по некоторым причинам, я обнаружил, что переменные, перечисленные в начале уравнения в конечном итоге выбран с помощью функции stepAIC, и Результатом можно управлять путем перечисления, например, Var9 сначала (после тильды).

Что представляет собой более эффективный (и менее спорный) способ установки модели здесь? На самом деле я не настроен на использование линейной регрессии: единственное, что я хочу, - это понять, какая из 9 переменных действительно влияет на вариацию переменной Score. Предпочтительно, это будет некоторый метод, который учитывает сильный потенциал коллинеарности в этих 9 переменных.

Я знаю, что это сложный вопрос, но я действительно ценю, что вы нашли время, чтобы посмотреть на него ...

Best, Джул

+0

Julie, здесь не оффтоп, но я думаю, вы получите гораздо более сложные ответы на stats.stackexchange.com, который является сайтом точно такой же компании, как stackoverflow.com. Если вы хотите, я могу указать, что ваш вопрос будет автоматически перенесен туда. – TMS

+0

Привет, Томас. Большое спасибо. Я пошел вперед и переписал на stats.stackexchange.com. Благодаря! – Julie

+0

Джулия, нет, ты не должен этого делать, им это не нравится ... лучше отметить это для миграции. – TMS

ответ

0

Вы можете анализ главных компонент (статистика :: prcomp).

См. Документ «Маленькая книга R для многомерного анализа» Аврил Коглан, раздел 2.7. Он дает хороший пример, используя загруженные данные о различных производителях вина.

+0

Эй, большое спасибо за предложение! – Julie

0

Я закончил работу с байесовской моделью усреднения (с использованием пакета BMS в R).

 Смежные вопросы

  • Нет связанных вопросов^_^