Я пытаюсь сделать базовую классификацию с несколькими метками в Azure ML. У меня есть некоторые базовые данные в следующем формате:Лазурная машина, которая изучает даже выборку
value_x value_y label
x1 y1 label1
x2 y2 label1
x3 y3 label2
.....
Моя проблема заключается в том, что в моих данных некоторые ярлыки (из общего числа пяти) избыточно, так как около 40% от данных label1, около 20% это метка 2, а остальные около 10%.
Я хотел бы получить выборку для обучения моей модели, чтобы каждая метка была представлена в равных количествах.
Пробовал параметр стратификации в модуле Sampling в столбце меток, но это просто дает мне выборку с тем же распределением меток, что и в исходном наборе данных.
Любая идея, как я мог бы сделать это с помощью модуля?
Создать R-модуль для управления данными? Не уверен, что это лучшая практика. – misha130
Я написал сценарий Python для этого в конце, но мне было интересно, есть ли что-то уже построенное, в котором я отсутствовал. – tamasgobesz