Я пытаюсь лучше понять, как значения моего вектор-функции могут влиять на результат. Например, предположу, что у меня есть следующий вектор с конечным значением является результатом (это проблема классификации с использованием SVC, например):Может ли очень большое (или очень маленькое) значение в векторе признаков использовать результаты смещения SVC? [scikit-learn]
0.713, -0.076, -0.921, 0.498, 2.526, 0.573, -1.117, 1.682, -1.918, 0.251, 0.376, 0.025291666666667, -200, 9, 1
Вы заметите, что большинство из центра значений вокруг 0 , однако есть одно значение, которое на несколько порядков меньше -200.
Я обеспокоен тем, что это значение искажает предсказание и взвешивается несправедливо тяжелее, чем остальное, просто потому, что значение так сильно отличается.
Это что-то беспокоит при создании вектор-функции? Или будет статистический тест, который я использую для оценки моего векторного управления для этого большого (или малого) значения на основе набора обучения, который я ему предоставляю? Существуют ли методы, доступные в sci-kit, специально изучают, что вы бы рекомендовали нормализовать вектор?
Благодарим за помощь!
Привет, спасибо за ваш ответ. Я очень ценю вклад. Я пробовал следующее: я использовал методы здесь, на scikit-learn, чтобы «нормализовать» мой учебный набор и вектор характеристик теста: http://scikit-learn.org/0.11/modules/preprocessing.html. Когда я делаю некоторое тестирование, я обнаружил, что мой вектор функций, который НЕ был нормализован, работает лучше, чем нормализованный. Как вы думаете, что это отражает результаты, которые я нашел? –
Если все сделано правильно (что вы должны дважды проверить, так как это наиболее вероятная причина - ошибка), это будет означать, что ваши диспропорции на самом деле помогают классификатору принимать правильные решения, поэтому это предубеждение, вызванное отсутствием нормализации перемещает границу решения «правильным образом». Короче говоря - нормализация не выполняется, это будет гарантировать лучшие результаты. Это выполняется, потому что мы предполагаем, что мы не знаем априорно, какие функции лучше, а какие хуже. – lejlot
@ T.S .: Возможно, эта функция является сильным предиктором правильного класса, а остальное - просто шумом. Выбор функций может помочь избавиться от ненужных функций. –