1

Я запускал случайную модель классификации лесов и первоначально делил данные на поезд (80%) и тест (20%). Однако в предсказании было слишком много False Positive, которое, по моему мнению, было связано с тем, что в данных обучения было слишком много шума, поэтому я решил разделить данные по другому методу и вот как я это сделал.Метод разборки машин и методов тестирования данных

Поскольку я думал, что высокий False Positive был обусловлен шумом в данных поезда, я сделал данные поезда равным числом целевых переменных. Например, если у меня есть данные из 10 000 строк, а целевая переменная составляет 8000 (0) и 2000 (1), у меня были данные обучения в общей сложности 4000 строк, включая 2000 (0) и 2000 (1), так что данные обучения теперь имеют больше сигналов.

Когда я попробовал этот новый метод расщепления, он предсказал путь лучше, увеличив Recall Positive с 14% до 70%.

Я хотел бы услышать ваши отзывы, если я делаю что-то неправильно здесь. Я обеспокоен тем, что я делаю свои данные обучения предвзятыми.

ответ

0

Если у вас есть неравное количество точек данных в каждом классе набора тренировок, базовая (случайное предсказание) изменяется.

По шумным данным, я думаю, вы хотите сказать, что количество тренировочных очков для класса 1 больше, чем другое. На самом деле это не шум. Это на самом деле предвзятость.

Для примера: у вас есть 10000 точек данных в наборе тренировок, 8000 классов 1 и 2000 класса 0. Я всегда могу предсказать класс 0 и получить 80% -ную точность. Это вызывает предвзятость, а базовая линия для классификации 0-1 не будет равна 50%.

Чтобы устранить эту предвзятость, вы можете намеренно сбалансировать набор тренировок так же, как и вы, или можете изменить функцию ошибки, придав весу обратно пропорционально количеству очков в наборе тренировок.

+0

Большое спасибо за ваш быстрый ответ. Таким образом, метод, который я реализовал (имея данные обучения, чтобы иметь 50% класс 0 и 50% класс 1), является правильным методом для использования? – Oleole

+0

Да! но это зависит от того, какое значение вы придаете ложным позитивам или ложным отрицательным результатам. Например: пусть 1-й класс - у больного рак и 0 - не рак. Вы были бы более склонны к ложному отрицанию по сравнению с ложными срабатываниями. В этом случае вы придавали бы различную важность различным предсказанным классам. Но если вы хотите дать равный вес как 0, так и 1, то это правильно. PS: Примите ответ, если вы считаете его правильным/удовлетворительным –

+0

Пример рака в точности соответствует мне, где я хочу иметь меньше False Отрицательный! Так что я должен давать больше веса классу 1, чем класс 0, вместо того, чтобы иметь данные о тренировках, чтобы иметь 50% класс 1 и 50% класс 0? – Oleole

 Смежные вопросы

  • Нет связанных вопросов^_^