Я новичок в Pyspark. У меня есть набор данных, который содержит категориальные функции, и я хочу использовать регрессионные модели из pyspark для прогнозирования непрерывных значений. Я застрял в предварительной обработке данных, необходимых для использования моделей MLlib.Нужно ли преобразовывать категориальные атрибуты в числовые атрибуты для использования функции LabeledPoint в Pyspark?
0
A
ответ
0
Да, это необходимо. Вы должны не только конвертировать в числовые, но и кодировать, чтобы сделать их полезными для линейных моделей. Обе стадии реализуются в pyspark.ml
(не mllib
) с:
pyspark.ml.feature.StringIndexer
- индексацию.pyspark.ml.feature.OneHotEncoder
- кодирование.