2017-01-13 7 views
-1

в задаче интеллектуального анализа данных регрессии, есть столбец с именем «Качеством», и значением является:Имеет ли смысл делать масштабирование с Порядковым номером в интеллектуальном анализе данных

['Excellent','Good','Average','Fair','Poor'] 

, так что я думаю, что «хорошо» лучше, чем «Средняя», и я их меняю в порядковый номер с отображением:

'Excellent' : 5 
'Good' : 4 
'Average' : 3 
'Fair' : 2 
'Poor' : 1 

поэтому мой вопрос:

После того как я изменить значение в число, можно сделать масштабирование со средним и дисперсией об этом или например, StandardScaler с pandas

+1

Этот вопрос не связан с программированием, лучше спросите его на http://stats.stackexchange.com – Sentry

ответ

1

Этот вопрос не может быть дан.

Кодирующие ординалы как целые числа являются эвристикой. Вы можете получить лучшие результаты с -100, -10,0,5,10, например, или с масштабированной версией. Или это вообще не имеет значения!

Если вы хотите узнать, если это необходимо, вам необходимо изучить статистическую модель ваших данных и процесс. Этот qill будет сложным, и вам придется делать это самостоятельно (поскольку у нас нет ваших данных, проблем и достаточно времени).

+0

спасибо за ответ, и вы упомянули цифры: -100, -10,0,5,10, можете ли вы дать некоторые подскажут, почему вы используете эти цифры, у вас есть какой-то шаблон? еще раз спасибо – 176coding

+0

Если, например, «Бедный» очень редок, может быть лучше подчеркнуть его эффект. Значения, вероятно, неравномерно распределены. –