Нужно ли преобразовывать категориальные атрибуты в числовые атрибуты для использования функции LabeledPoint в Pyspark?

2017-01-06 4 views 0 likes

Я новичок в Pyspark. У меня есть набор данных, который содержит категориальные функции, и я хочу использовать регрессионные модели из pyspark для прогнозирования непрерывных значений. Я застрял в предварительной обработке данных, необходимых для использования моделей MLlib.Нужно ли преобразовывать категориальные атрибуты в числовые атрибуты для использования функции LabeledPoint в Pyspark?

источник

2017-01-06 jdatastic17

ответ

Да, это необходимо. Вы должны не только конвертировать в числовые, но и кодировать, чтобы сделать их полезными для линейных моделей. Обе стадии реализуются в pyspark.ml (не mllib) с:

pyspark.ml.feature.StringIndexer - индексацию.
pyspark.ml.feature.OneHotEncoder - кодирование.

источник

2017-01-06 21:06:25 user7337271

Нужно ли преобразовывать категориальные атрибуты в числовые атрибуты для использования функции LabeledPoint в Pyspark?

ответ

Смежные вопросы