2017-01-10 6 views
1

Предположим, что набор данных содержит независимые переменные, которые являются непрерывными и двоичными. Обычно столбец метки/результата преобразуется в один горячий вектор, тогда как непрерывные переменные могут быть нормализованы. Но что нужно применять для двоичных переменных.Выбор переменных для нормализации при применении логистической регрессии

 
AGE  RACE GENDER NEURO EMOT 
15.95346 0 0  3  1 
14.57084 1 1  0  0 
15.8193  1 0  0  0 
15.59754 0 1  0  0 

Как это относится к логистической регрессии и нейронных сетей?

ответ

1

Если диапазон непрерывного значения мал, закодируйте его в двоичную форму и используйте каждый бит этой двоичной формы в качестве предиктора. Например, номер 2 = 10 в двоичном формате. Поэтому

predictor_bit_0 = 0

predictor_bit_1 = 1

Try и посмотреть, если он работает. Чтобы предупредить вас, этот метод очень субъективен и может давать или не давать хорошие результаты для ваших данных. Я буду держать вас в курсе, если найду лучшее решение.

+0

Я не думаю, что это отвечает на мой вопрос, для непрерывных переменных, которые в значительной степени отличаются от max и min, потребуется нормализация. Я четко упомянул, что нужно делать для двоичных переменных (переменные, которые имеют только 2 результата, такие как 0 или 1), я просто их уничтожаю или мне нужно выполнить аналогичную операцию, такую ​​как нормализация? –

+0

Хорошо, тогда вы можете перепроектировать решение, которое я разместил. Просто соедините двоичные предсказатели с непрерывными предикторами. Например, для race = 1, gender = 0 и emot = 1, x = 1: объединяются, чтобы сформировать одно двоичное число, в котором каждый бит представляет собой один из предикторов. Ваш комбинированный предиктор для приведенного выше примера будет 1011 (в двоичном формате) = 11 в десятичном значении. Вы можете использовать этот предиктор так, как есть, или можете его нормализовать. – Arjun