2014-01-20 3 views
1

Я использовал функцию aov() в R для возрастов. Я всегда вводил свои данные через CSV-файлы и никогда не беспокоился о преобразовании любой из переменных в «фактор».Когда факторы необходимы/необходимы в r

Недавно я сделал именно это, преобразование переменных в факторы и повторение aov(), а результаты aov() теперь разные.

Мои данные упорядочены по категориям, 0,1,2. Неупорядоченные или упорядоченные уровни не имеют никакого значения, оба они отличаются от использования переменной без преобразования в коэффициент.

Являются ли факторы подходящими? Почему такое преобразование делает такую ​​большую разницу?

Пожалуйста, дайте мне знать, если требуется дополнительная информация, чтобы уточнить мой вопрос.

ответ

2

Это действительно статистический вопрос, но да, это может иметь значение. Если R обрабатывала переменную как числовую, то в модели она учитывала бы только одну степень свободы. Если уровни числового числа были равны 0, 1, 2, в качестве фактора он использовал бы две степени свободы. Это изменит статистические результаты модели. Разница в сложности модели между числовыми и факторными представлениями заметно возрастает, если вы кодируете несколько факторов численно или переменные имеют более чем несколько уровней. Является ли увеличение объясненных сумм квадратов от включения переменной статистически значимым, зависит от величины увеличения и изменения сложности модели. Использование числового представления переменной класса увеличило бы сложность модели с помощью одной степени свободы, но переменная класса использовала бы k -1 степеней свободы. Следовательно, при таком же улучшении при подгонке модели вы можете оказаться в ситуации, когда изменяется ли кодировка переменной числовым или фактором, оказывает ли она существенное влияние на ответ.

Концептуально модели, основанные на цифрах или факторах, отличаются; с факторами у вас есть небольшой набор групп или классов, которые были отобраны, и цель состоит в том, чтобы увидеть, отличается ли ответ между этими группировками. Модель фиксирована на множестве групп выборок; вы можете предсказать только для наблюдаемых групп. С числами вы говорите, что ответ изменяется линейно с числовой переменной (-ами). Из оснащенной модели вы можете предсказать, что некоторые новые значения числовой переменной не наблюдаются.

(Обратите внимание, что вывод для фиксированных факторов предполагает, что вы подгоняете модель с фиксированными эффектами. Обработка факторных переменных как случайного эффекта перемещает фокус с точного набора групп, отобранных на совокупность всех групп населения из который был взят образец.)