2016-12-13 13 views
0

Я просто запускаю случайную модель леса по набору данных дисбаланса. Я получил набор AUC и матрицу замешательства. AUC показалась неплохой, но на самом деле модель предсказывает каждый пример как положительный. Итак, как это произошло и как правильно использовать AUC?Как интерпретировать оценку AUC в этом случае?

enter image description here

РПЦ Curve, как показано ниже:

enter image description here

+0

Перекрестная рассылка: https://stackoverflow.com/q/41132399/781723, https://datascience.stackexchange.com/q/15725/8560. Пожалуйста, не публикуйте тот же вопрос на нескольких сайтах (https://meta.stackexchange.com/q/64068). У каждого сообщества должен быть честный ответ на вопрос, если никто не будет потрачен впустую. –

ответ

0

Вы можете иметь эту проблему, когда ваши данные искажены в одном или другом направлении (то похож на небольшой ложных срабатываний будучи ужасным для медицинских испытаний для редких условий). Возможно, было бы полезно посмотреть всю характеристическую кривую приемника (кривую ROC), а не только сводную оценку AUC.

+0

Вы имели в виду данные дисбаланс 'перекос'? – LUSAQX

+0

Не совсем. Я намеренно использовал расплывчатую формулировку, потому что (а) я не совсем эксперт в этом, я просто знаю достаточно опасно и (б) трудно комментировать данные, которых я не видел. Если вы можете сделать график кривой ROC и опубликовать его, я (или другие) мог бы помочь интерпретировать проблему. –