Я использую классификаторы sklearn, различные, но в основном сосредоточены вокруг деревьев решений. Я думаю, что у меня проблема с предубеждением. Вот что я работаю с,Sklearn - данные смещены относительно False
Набор 25k подготовки отчетов (всего данные о 500k доступны) 95% фактических данных, предоставленных ложна, так как клиенты обычно отмечают эти данные в качестве ложного
25k учебных записей включает 95% ложных и 5% истинных
При подготовке и тестировании я получаю точность от 85% до 94% в зависимости от особенностей, которые я использую. Иногда даже до двух функций обеспечивает точность 90%, а 20 функций (которые, как я знаю, важны) увеличиваются до 94%. Я считаю, что это неверно, и я чувствую, что есть некоторые отклонения в сторону ложных из-за данных, которые я предоставляю. Должен ли я включать больше записей в мое обучение, настроенное на «истинное», возможно, используя записи 30 тыс., Добавив еще один набор из 5 тыс., Которые являются «истинными» значениями из наших фактических данных?
Это может произойти, даже если оценщик метки все данные как ложные, вам может получить точность 95%. –