Я запускал случайную модель классификации лесов и первоначально делил данные на поезд (80%) и тест (20%). Однако в предсказании было слишком много False Positive, которое, по моему мнению, было связано с тем, что в данных обучения было слишком много шума, поэтому я решил разделить данные по другому методу и вот как я это сделал.Метод разборки машин и методов тестирования данных
Поскольку я думал, что высокий False Positive был обусловлен шумом в данных поезда, я сделал данные поезда равным числом целевых переменных. Например, если у меня есть данные из 10 000 строк, а целевая переменная составляет 8000 (0) и 2000 (1), у меня были данные обучения в общей сложности 4000 строк, включая 2000 (0) и 2000 (1), так что данные обучения теперь имеют больше сигналов.
Когда я попробовал этот новый метод расщепления, он предсказал путь лучше, увеличив Recall Positive с 14% до 70%.
Я хотел бы услышать ваши отзывы, если я делаю что-то неправильно здесь. Я обеспокоен тем, что я делаю свои данные обучения предвзятыми.
Большое спасибо за ваш быстрый ответ. Таким образом, метод, который я реализовал (имея данные обучения, чтобы иметь 50% класс 0 и 50% класс 1), является правильным методом для использования? – Oleole
Да! но это зависит от того, какое значение вы придаете ложным позитивам или ложным отрицательным результатам. Например: пусть 1-й класс - у больного рак и 0 - не рак. Вы были бы более склонны к ложному отрицанию по сравнению с ложными срабатываниями. В этом случае вы придавали бы различную важность различным предсказанным классам. Но если вы хотите дать равный вес как 0, так и 1, то это правильно. PS: Примите ответ, если вы считаете его правильным/удовлетворительным –
Пример рака в точности соответствует мне, где я хочу иметь меньше False Отрицательный! Так что я должен давать больше веса классу 1, чем класс 0, вместо того, чтобы иметь данные о тренировках, чтобы иметь 50% класс 1 и 50% класс 0? – Oleole