Я работаю над предсказанием анализа настроений с использованием набора данных обзоров фильмов Rotten Tomatoes. Набор данных имеет 5 классов {0,1,2,3,4} где 0 означает очень отрицательное, а 4 очень позитивный Набор данных крайне неуравновешенным,Как сбалансировать набор учебных материалов, который имеет очень большое количество выборок для определенного класса?
total samples = 156061
'0': 7072 (4.5%), '1': 27273 (17.4%), '2': 79583 (50.9%), '3': 32927 (21%), '4': 9206 (5.8%)
как вы можно увидеть класс 2
имеет почти 50% проб и 0
и 5
вклад ~ 10% от обучающего множества
Так есть очень сильный уклон для класса 2
, таким образом, уменьшая точность классификации для класса 0
и 4
.
Что я могу сделать, чтобы сбалансировать набор данных? Одним из решений было бы получить равное количество выборок, уменьшив выборки до 7072 для каждого класса, но это значительно сократит набор данных! Как оптимизировать и сбалансировать набор данных, не влияя на точность общей классификации?
Вы также можете взглянуть на следующем [ответы от CrossValidated ] (https://stats.stackexchange.com/questions/152823/how-to-balance-my-dataset). – sophros