2016-05-17 4 views
0

У меня есть набор прогнозов из модели и набор истинных значений наблюдений, и я хочу создать ROC.ROC для прогнозов - как определить метки классов

Качество прогноза (в абсолютных погрешностях) не зависит от величины предсказания. Поэтому у меня есть набор предсказаний (pred (1), pred (2), ..., pred (n)) и наблюдений (obs (1), obs (2), ..., obs (n)).

Кто-то сказал мне создать элементы моей метки бинарной классификации (i) в качестве метки (i) = ifelse (| obs (i) - pred (i) | < tol, 1, 0), а затем вычислить AUC (tol - некоторая относительная толерантность). Поэтому для каждого прогноза, если он близок к соответствующему наблюдению, соответствующая метка равна 1, в противном случае она равна 0.

Но я не вижу, как допустимая маркировка действительна, поскольку более высокие значения pred() не будут обязательно различают мою двоичную классификацию, то есть значения предсказания не служат для «RANK» качества моих прогнозов (т. е. данный порог не делит мои данные естественным образом). Может кто-то пролить свет на меня, что делать здесь? Является ли приведенное выше предложение действительным? Или ROC не подходит для использования здесь?

+0

Кто вам сказал? Это, конечно, не анализ ROC ... вместо этого вы захотите использовать корреляционную меру. – Calimo

+0

Моя кишка говорит, что ты прав. Это сделал коллега. Могу ли я получить дополнительную информацию от вас или кого-то еще о том, почему это неверно для бинаризации на основе предиктора? – user85727

+0

* коллега предложил его – user85727

ответ

0

Анализ ROC определяется для двоичной классификации, где наблюдаемые метки могут принимать два значения (двоичные), а ваши предсказания - это любые числа. Есть расширения анализа ROC для многоклассовой классификации, но ваш вопрос предполагает, что ваши наблюдения являются своего рода непрерывным измерением. Вы могли бы бинарировать их (что-то вроде label(i) = ifelse(obs(i) > someValue, 1, 0)), но было бы неверно, если метки будут зависеть от классификации: они должны быть какой-то правдой, независимой от вашего классификатора.

В качестве альтернативы, если ваши наблюдения непрерывны, вы должны оценить качество своих прогнозов с коэффициентом корреляции или аналогичной мерой.

+0

Вы уверены в этом, что он недействителен для бинаризации на основе классификатора? – user85727

+0

Похоже, что этот плакат сделал аналогичную бинаризацию, о которой вы прокомментировали, но не упомянул, что это было недействительно: http://stackoverflow.com/a/37268167/3954614 – user85727

+0

@ user85727 это не был вопрос – Calimo