2014-09-25 4 views
1

Я использую модель логистической регрессии для прогнозирования значений в растровом наборе данных. Данные, используемые в модели в следующем формате:Как интерпретировать необычные результаты от модели glm?

class  b1  b2  b3  b4 
A   121 111 90  160 
A   100 90  67  90 
B   90  120 102 154 
... 

Я хотел бы ожидать выход модели, чтобы быть категоричными (А или В, есть только два класса). Вместо этого модель glm дает непрерывные значения в диапазоне от 0 до 1. Либо моя интерпретация вывода модели неверна, либо я кодирую это неправильно. Как следует интерпретировать эти результаты?

enter image description here


# GLM 
    myglm = glm(factor(class) ~ b1 + b2 + b3 + b4), data = df, family = binomial(link = "logit")) 

    # Predict results and write to image 
    predict(sf, myglm, outpath, type="response", 
      index=1, na.rm=TRUE, progress="text", overwrite=TRUE) 
+1

@rawr Я не думаю, что необоснованно ожидать, что бинарные результаты могут быть имитированы. – jbaums

+0

@ jbaums вопрос кажется «почему мои установленные значения не As и Bs», или я ошибаюсь? – rawr

+0

@ jbaums ответьте – rawr

ответ

1

Выходной сигнал является правильным. Вы должны интерпретировать эти значения как вероятности. Для базового класса задается вероятность.

Значение 0.7 означает 70% вероятности точки данных, принадлежащей классу A (или B), в зависимости от того, как вы устанавливаете уровни.

Если вы хотите получить двоичные классы, вам нужно решить, по какой-либо причине. Если показатель распространенности равен 50%, то в качестве отсечки должно быть достаточно 0,5.

2

Не похоже, что вы неправильно это кодируете. Похоже, вы прогнозируете вероятность целевого события (следовательно, от 0 до 1). Попробуйте статистику стека обмена для получения дополнительной информации о логистической регрессии: https://stats.stackexchange.com/

Если вы хотите получить чисто двоичный результат, вы можете сделать предположение о том, где округлить вверх или вниз, чтобы заставить сказать все ниже 0,55 до 0 и все выше 0,55 до 1 Это будет зависеть от редкости события и вашего собственного желаемого результата от того, где вы хотите добавить отсечку. Это не тот подход, который я часто видел, но входит в некоторые программные пакеты, такие как TreeNet.