2017-02-23 42 views
0

Я использую классификаторы sklearn, различные, но в основном сосредоточены вокруг деревьев решений. Я думаю, что у меня проблема с предубеждением. Вот что я работаю с,Sklearn - данные смещены относительно False

Набор 25k подготовки отчетов (всего данные о 500k доступны) 95% фактических данных, предоставленных ложна, так как клиенты обычно отмечают эти данные в качестве ложного

25k учебных записей включает 95% ложных и 5% истинных

При подготовке и тестировании я получаю точность от 85% до 94% в зависимости от особенностей, которые я использую. Иногда даже до двух функций обеспечивает точность 90%, а 20 функций (которые, как я знаю, важны) увеличиваются до 94%. Я считаю, что это неверно, и я чувствую, что есть некоторые отклонения в сторону ложных из-за данных, которые я предоставляю. Должен ли я включать больше записей в мое обучение, настроенное на «истинное», возможно, используя записи 30 тыс., Добавив еще один набор из 5 тыс., Которые являются «истинными» значениями из наших фактических данных?

+0

Это может произойти, даже если оценщик метки все данные как ложные, вам может получить точность 95%. –

ответ

1

Возможно, что все ваши тестовые данные являются ложными, и в этом случае, всегда выбирая false, вы можете получить 95% эффективности.

У вас есть проблема дисбаланса класса. Это типично во многих сценариях реального мира. Например, ВИЧ-положительные случаи редки, что ВИЧ-негативы, раковые клетки или операции мошенничества. Вы должны увидеть, что стоимость ложноотрицательных против Истинного Положительных, чтобы иметь возможность настроить ваш алгоритм превалировать точности над эффективностью и т.д.

Несколько вещей, которые я хотел бы сделать:

  1. ли матрица путаницы (http://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html) это поможет вам также проверить, как много ложноположительных и истинных позитивов
  2. Использование кросс проверки, чтобы получить лучшее сочетание поезда/тестирования популяций
+0

Это замечательно, спасибо! – HMan06

+0

Еще раз спасибо, это помогло совсем немного. Теперь, когда я смотрю на это (и мой мозг, похоже, работает) точность приближается к 25%; который на самом деле не за горами, что я ожидал. Я продолжу работу над этим. – HMan06

 Смежные вопросы

  • Нет связанных вопросов^_^