2016-05-14 3 views
0

Возможно ли запустить контролируемую классификацию случайного увеличения максимальной чувствительности леса (TP/(TP + FN))? Насколько я знаю, Точность или Каппа являются метрикой. Ниже приведен реальный пример того, как и Каппа, и Точность пропустили оценку модели по желанию. Как указано в ответе и комментариях (@Hanjo и @Aaron), чувствительность сама по себе не является хорошей метрикой.R случайный лес по чувствительности

 0 1  T 
0 1213 50 1263 
1 608 63 671 
T 1821 113 1934 

> Precisao(prev_table) 
[1] "accuracy(TP+TN/T)= 0.66" 
[1] "precision(TP/TP+FP)= 0.558" 
[1] "sensitivity(TP/TP+FN)= 0.0939" 
[1] "positive= 671 0.347" 
[1] "negative= 1263 0.653" 
[1] "predicted positive= 113 0.0584" 
[1] "predicted negative= 1821 0.942" 
[1] "Total= 1934" 

Настоящие x прогнозируемые результаты не соответствуют цели.

+3

Вы могли бы, но почему конкретно чувствительность? Посмотрите в библиотеку «caret» и под моделью обучения, установите «метрику» на чувствительность. Я думаю, что «kappa» - это гораздо лучшая оценка производительности моделей, поскольку она учитывает дисбаланс классов –

+0

@ HanjoJo'burgOdendaal, похоже, по документам, что только Точность и Каппа являются возможными метриками. – x00

ответ

3

позвольте мне остановиться для вас о том, почему выбор «чувствительность» или «специфичность» в качестве показателя производительности не может быть хорошей идеей, и почему я говорю, вы должны, возможно, пойти на kappa (особенно в несбалансированных предсказаниями класса)

Представьте, что мы имеем следующий набор данных и прогнозирования результатов:

x Outcome Prediction 
0.515925884 1 1 
0.416949071 0 1 
0.112185499 0 1 
0.557334124 0 1 
0.599717812 0 1 
0.272965861 1 1 
0.898911346 0 1 
0.347428065 0 1 

Если модель предсказала 1 по всем наблюдениям, вы бы чувствительность к 100%, и было бы ошибочно предположить, что модель хорошо. То же самое верно, если модель предсказала все результаты как 0, что относится к 100% -ной специфичности. Но означает ли это, что модель хорошо настроена? Очевидно, что нет, как простое правило «предсказать» все результаты как истинные положительные моменты, даст вам специфичность 100%. Теперь, kappa использует следующее измерение производительности модели:

Каппа статистика (или значение) является показателем, который сравнивает наблюдаемую Точность с ожидаемой точностью (случайность). Это гораздо более представительная мера производительности вашей модели. Хороший ответ, чтобы объяснить это, можно найти здесь Stats Exchange

+0

На практике это не так. Как у меня много негативов, модель оценивает как хороший ответ много прогнозируемого негатива. Важно сосредоточиться на Чувствительности: целью модели является НЕ предсказать ложный негатив, другими словами, быть уверенным в положительном предсказании. Прогнозы, сделанные с помощью Kappa или Accuracy, дают 3 разных случая в 5000 экземплярах. Ниже иллюстрация. – x00

+2

Что Hanjo говорит, хотя, вам не нужны случайные леса, чтобы максимизировать чувствительность. Просто предскажите 1 за все, сделайте. Если это не то, что вы хотите сделать, вам нужна определенная метрика, в которой есть компромисс. – Aaron

+0

Если вы выбрали «Чувствительность» в качестве показателя, ваша модель научится прогнозировать 1 по всем вопросам, независимо от ввода - как при тренировке, вы не наказали ее за угадывание 1 по вопросам, которые были на самом деле в действительности. то есть независимо от входных переменных x, ваша модель всегда будет прогнозировать 1. –