0

Я делаю линейный регрессионный анализ данных, касающихся домов. На данный момент у меня есть 23 функции. Некоторые из них четко обозначают (например, год, количество комнат, этаж). Некоторые функции категоричны, и я смущен тем, как их обрабатывать при кодировании в числовом формате. Я не согласен с тем, какой метод кодирования использовать: одноразовое кодирование (используется для категориального) или просто порядковое сопоставление (для порядковых данных). Я знаю, что такие категоричные функции, как цвет, пол, район, национальность, очевидно, должны кодироваться с использованием фиктивного кодирования. Также ясно, что такую ​​категорическую особенность, как условие с возможными значениями «старые», «обновленные», «новые», можно заказать и закодировать как 1, 2, 3 соответственно.Как дифференцировать категориальные и порядковые переменные в регрессионном анализе?

Но я не уверен, как кодировать не совсем очевидные функции. Этот характер «природа не сразу заметна и в какой-то степени может быть отнесена к порядковым данным и категориальным данным одновременно. Давайте посмотрим на пример:

Strongly Agree 
Agree 
Undecided 
Disagree 
Strongly Disagree 

Это от вопроса: https://stats.stackexchange.com/questions/58818/can-ordinal-variables-be-used-as-predictor-for-linear-multiple-regression-analys

Автор решил кодировать их ординально. Некоторым рекомендуется использовать фиктивное кодирование. Не ясно.
Другой пример (материал):

Plastic 
Wood  
Metal 
Armored 

С моей точки зрения эти данные могут быть заказаны и кодируются ординально, как 1,2,3,4. Просто бронированная дороже Металла. Металл дороже дерева и так далее. Но я видел лекцию на youtube, где было сказано не кодировать элементы по порядку только потому, что вы видите некоторые восходящие или нисходящие шаблоны. Эти шаблоны могут быть иллюзорными и ложными.

Другой пример (интернет тип подключения):

DSL 
ADSL 
SDSL 
Cable 
Broadband 

Некоторые из них быстрее, некоторые медленнее, чем другие, но нет «четкого порядка». Что делать с такими «нечеткими» категориальными данными.

Как отличить категориальные и порядковые данные? Или мне просто нужно кодировать по порядку только очень простые порядковые переменные, такие как «условие» и сохранять остающиеся неясные переменные как категориальные и фиктивные коды.

ответ

3

Я бы сказал, что порядковые переменные - это то, что вы можете заказать и отвечать снаружи от вашего значения, все еще имеет смысл. Хороший пример - «согласен»/«не согласен». вы можете сопоставить их значениям 1-5, и даже когда вы получите 2,3, вы знаете, что это значит: это немного больше, чем «согласен». но это совершенно не имеет смысла с «пластиковым»/«дровами» - это категорично. касательно интернет подключение type. это зависит. если мы говорим о скорости, и вы можете заказать эти соединения, тогда имеет смысл рассматривать это как порядковый номер. но если мы говорим о, например, популярность модема, чем это просто категориальная переменная