2016-05-13 8 views
0

Я подгоняю регрессионную модель с двумя независимыми категориальными переменными и одной числовой переменной. У меня два уровня в переменных категориях, A и B; три уровня в переменных цветах, красных, оранжевых и желтых. Но размер этих уровней сильно различается. Я печатаю здесь пример:Является ли размер уровня влияющим на результаты регрессионной модели?

Category Color Price 
    A R 12 
    A R 43 
    A Y 32 
    A Y 31 
    A R 21 
    A Y 56 
    A Y 34 
    A Y 23 
    A R 12 
    A R 6 
    A R 43 
    B Y 32 
    B R 12 
    B R 26 
    B O 15 
    B R 27 
    B R 14 
    B O 13 
    B R 37 
    B O 15 
    B O 47 
    B R 25 

Категория A не имеет оранжевого цвета, а категория B имеет только 1 желтый цвет. Является ли это подходящим для модели регрессии, чтобы получить заключение о том, какая разница в цене между категориями и цветами?

ответ

0

Если у вас нет числовой переменной функции, тогда нет смысла создавать регрессионную модель. Вы можете просто использовать средства в каждой категории. Например, использование панд:

pd.pivot_table(df,columns=['Category','Color'],aggfunc=np.mean) 

     Category Color 
Price A   R  22.833333 
       Y  35.200000 
     B   O  22.500000 
       R  23.500000 
       Y  32.000000 
+0

Благодарим за комментарий. Как насчет числовой переменной? Я просто приведу пример выше, чтобы обсудить размер уровня. На самом деле я модель регрессии с другими переменными в. Можете ли вы дать мне ответ на мой вопрос, если у меня есть «Возраст», как старый элемент в моей модели регрессии? –

 Смежные вопросы

  • Нет связанных вопросов^_^