Предположим, что проблема классификации двух классов. Один класс имеет более 95% помеченных данных, а другой класс имеет 5% помеченных данных. Два класса очень предвзяты.точность и отзыв на предвзятый набор данных
Я выполняю проверку класса для оценки разных классификаторов, я обнаружил, что классификатор намеренно предсказывает класс, который имеет метку большинства (95%), даже если результат предсказания на другом классе не является точным, из точности/отзыва , это трудно отличить, поскольку у другого класса есть только 5% помеченных данных.
Здесь приведены методы/показатели (с использованием точности/отзыва), которые я использую. Мне интересно, если какие-либо другие лучшие показатели или метод для оценки с учетом второстепенного 5% класса? Я назначаю вес второму классу 5%, но я прошу здесь более систематический метод измерения смещенного набора данных.
Использование scikit learn + python 2.7.
scores = cross_validation.cross_val_score(bdt, X, Y, cv=10, scoring='recall_weighted')
print("Recall: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))
scores = cross_validation.cross_val_score(bdt, X, Y, cv=10, scoring='precision_weighted')
print("Precision: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))
Зачем оставлять сообщения об этих типах вопросов так? Они принадлежат http://stats.stackexchange.com/ – Merlin
@Merlin, я могу сделать «статистику», спасибо за идеи. Я просто чувствую больше экспертов здесь. :)) –
Так как вы, похоже, не понимаете. ВАШИ ВОПРОСЫ ОТКЛЮЧАЮТСЯ НА СТЕКОВОЙ. см. ссылку. http://stackoverflow.com/help/on-topic – Merlin