2013-03-25 4 views
2

Случайный лес - это надежный алгоритм. В Random Forest он обучает несколько небольших деревьев и имеет точность OOB. Однако необходимо ли одновременно выполнять перекрестную проверку со случайным лесом?необходимо запустить случайный лес с перекрестной проверкой в ​​то же время

ответ

4

Ошибка OOB - объективная оценка ошибки для случайных лесов, так что это здорово. Но для чего вы используете перекрестное подтверждение? Если вы сравниваете RF с каким-либо другим алгоритмом, который не использует мешок таким же образом, вам нужен способ с низкой дисперсией сравнить их. В любом случае вы должны использовать перекрестную проверку для поддержки другого алгоритма. Тогда использование разделов выборки перекрестной проверки для RF и другого алгоритма по-прежнему является хорошей идеей, так что вы избавитесь от дисперсии, вызванной разделенным выбором.

Если вы сравниваете один RF с другим RF с другим набором функций, то сравнение ошибок OOB является разумным. Это особенно актуально, если вы убедитесь, что оба RFs используют одни и те же комплекты мешков во время обучения.

4

Не требуется для проведения любых проверок. Если вы просто хотите использовать его и не заботитесь о риске переобучения.

Для научных публикаций (или что-нибудь еще, где вы сравниваете качество различных классификаторов), вы должны подтвердить свои результаты, и перекрестная проверка является лучшей практикой здесь.