2014-10-19 2 views
0

Я изучаю случайные леса с некоторыми данными, которые я собрал. Я тестировал свой классификатор и получал точность около 89% на моем тестовом наборе. Однако, когда я масштабировал свои данные до нулевой средней и удельной дисперсии, моя точность снизилась почти на 50%. Я наткнулся на сообщение this, которое, похоже, предполагает, что мне не нужно масштабировать данные, чтобы получить оптимальную производительность.Нормализация ухудшает производительность классификатора

Может ли кто-нибудь пролить свет на возможные причины столь значительного падения точности?

Edit: Я использую sklearn.ensemble для моего случайного леса implemententation

Вот link на данные

+0

Это данные. Можете ли вы поделиться своими данными где-нибудь? – greeness

+0

@greeness Я загрузил свой файл данных – Ajit

ответ

0

ли ваш случайный лес инвариантен относительно некоторого преобразования входных данных Характеристики исключительно зависит от функционала погрешности. Короче говоря, когда ваш функционал является инвариантным относительно сдвига и масштабирования, ваша модель тоже.

После непродолжительного просмотра страницы справки here кажется, что стандартный функционал, используемый, по-видимому, является потерей девиации. Этот функционал не является инвариантным относительно масштабирования входных признаков, что объясняет ваше наблюдение.

+0

У меня такое ощущение, что у него есть что-то с данными. Я также попробовал поддержку векторной машины, которая, как ни странно, давала лучшую классификацию с немасштабированными данными. – Ajit