Я делаю линейный регрессионный анализ данных, касающихся домов. На данный момент у меня есть 23 функции. Некоторые из них четко обозначают (например, год, количество комнат, этаж). Некоторые функции категоричны, и я смущен тем, как их обрабатывать при кодировании в числовом формате. Я не согласен с тем, какой метод кодирования использовать: одноразовое кодирование (используется для категориального) или просто порядковое сопоставление (для порядковых данных). Я знаю, что такие категоричные функции, как цвет, пол, район, национальность, очевидно, должны кодироваться с использованием фиктивного кодирования. Также ясно, что такую категорическую особенность, как условие с возможными значениями «старые», «обновленные», «новые», можно заказать и закодировать как 1, 2, 3 соответственно.Как дифференцировать категориальные и порядковые переменные в регрессионном анализе?
Но я не уверен, как кодировать не совсем очевидные функции. Этот характер «природа не сразу заметна и в какой-то степени может быть отнесена к порядковым данным и категориальным данным одновременно. Давайте посмотрим на пример:
Strongly Agree
Agree
Undecided
Disagree
Strongly Disagree
Это от вопроса: https://stats.stackexchange.com/questions/58818/can-ordinal-variables-be-used-as-predictor-for-linear-multiple-regression-analys
Автор решил кодировать их ординально. Некоторым рекомендуется использовать фиктивное кодирование. Не ясно.
Другой пример (материал):
Plastic
Wood
Metal
Armored
С моей точки зрения эти данные могут быть заказаны и кодируются ординально, как 1,2,3,4. Просто бронированная дороже Металла. Металл дороже дерева и так далее. Но я видел лекцию на youtube, где было сказано не кодировать элементы по порядку только потому, что вы видите некоторые восходящие или нисходящие шаблоны. Эти шаблоны могут быть иллюзорными и ложными.
Другой пример (интернет тип подключения):
DSL
ADSL
SDSL
Cable
Broadband
Некоторые из них быстрее, некоторые медленнее, чем другие, но нет «четкого порядка». Что делать с такими «нечеткими» категориальными данными.
Как отличить категориальные и порядковые данные? Или мне просто нужно кодировать по порядку только очень простые порядковые переменные, такие как «условие» и сохранять остающиеся неясные переменные как категориальные и фиктивные коды.