Предположим, что набор данных содержит независимые переменные, которые являются непрерывными и двоичными. Обычно столбец метки/результата преобразуется в один горячий вектор, тогда как непрерывные переменные могут быть нормализованы. Но что нужно применять для двоичных переменных.Выбор переменных для нормализации при применении логистической регрессии
AGE RACE GENDER NEURO EMOT 15.95346 0 0 3 1 14.57084 1 1 0 0 15.8193 1 0 0 0 15.59754 0 1 0 0
Как это относится к логистической регрессии и нейронных сетей?
Я не думаю, что это отвечает на мой вопрос, для непрерывных переменных, которые в значительной степени отличаются от max и min, потребуется нормализация. Я четко упомянул, что нужно делать для двоичных переменных (переменные, которые имеют только 2 результата, такие как 0 или 1), я просто их уничтожаю или мне нужно выполнить аналогичную операцию, такую как нормализация? –
Хорошо, тогда вы можете перепроектировать решение, которое я разместил. Просто соедините двоичные предсказатели с непрерывными предикторами. Например, для race = 1, gender = 0 и emot = 1, x = 1: объединяются, чтобы сформировать одно двоичное число, в котором каждый бит представляет собой один из предикторов. Ваш комбинированный предиктор для приведенного выше примера будет 1011 (в двоичном формате) = 11 в десятичном значении. Вы можете использовать этот предиктор так, как есть, или можете его нормализовать. – Arjun