2017-01-09 14 views
0

В моем наборе данных переменные, обозначенные разным диапазоном, говорят, что Female_Age_Band указаны как 15-20,20-25,25-30, ... & и так далее. Но проблема заключается в том, данные недоступны, что особое наблюдение обозначается как «Недоступно», которое заставляет sas читать это поле в качестве символа. Поэтому я считаю, что это затруднит вызов этой переменной в логистической регрессии. Кроме того, есть также определенные категориальные поля, которые говорят, что есть 3 разных индикатора 0 1 & 2. Но даже эти поля имеют метку «Недоступно». Невозможно заменить нули, потому что ноль может быть допустимым значением.Использование Proc Logistic/Proc GAM

Может кто-нибудь помочь с решением?

+1

Вы можете прочитать его в виде символа и перекодировать вручную или заменить все недоступные в данных пробелом, (найти/заменить все) – Reeza

ответ

0

Проблема больше, чем «недоступна», потому что «15-20» также будет считаться символом. Но вы не хотите, чтобы все их заменили средним значением, поскольку это сделало бы вещи довольно странными. У вас нет XXX 17,5-летних людей.

Что бы я сделал, это использовать шаг данных, чтобы перекодировать данные как равномерно распределенные в пределах каждой возрастной группы и перекодировать «недоступные» как.

(Извините, у меня только что появился новый компьютер и я жду новой установки SAS, поэтому я не могу показать код прямо сейчас).

 Смежные вопросы

  • Нет связанных вопросов^_^