2017-01-06 4 views
0

Я новичок в Pyspark. У меня есть набор данных, который содержит категориальные функции, и я хочу использовать регрессионные модели из pyspark для прогнозирования непрерывных значений. Я застрял в предварительной обработке данных, необходимых для использования моделей MLlib.Нужно ли преобразовывать категориальные атрибуты в числовые атрибуты для использования функции LabeledPoint в Pyspark?

ответ

0

Да, это необходимо. Вы должны не только конвертировать в числовые, но и кодировать, чтобы сделать их полезными для линейных моделей. Обе стадии реализуются в pyspark.ml (не mllib) с:

  • pyspark.ml.feature.StringIndexer - индексацию.
  • pyspark.ml.feature.OneHotEncoder - кодирование.