2017-01-08 8 views
0

В документации Спарка официальной,Как работает VectorSlicer в Spark 2.0?

VectorSlicer является трансформатором, который принимает вектор признаков и выводит новый вектор признаков с подрешеткой оригинальных черт. Он полезен для извлечения признаков из векторного столбца.

  • выбрать ли это важные функции из набора функций?

  • Если это так, то как это делается без упоминания зависимой переменной?

Я пытаюсь выполнить кластеризацию данных, и мне нужны важные функции, которые улучшат кластеры. Могу ли я использовать VectorSlicer?

ответ

2

Выделяет ли это важные функции из набора функций?

Это не так. Он буквально разрезает вектор для выбора только указанных индексов.

и нуждаются в важных функциях, которые будут способствовать кластерам лучше.

  • Если у вас есть категорические данные рассмотреть возможность использования ChiSqSelector.

  • В противном случае вы можете использовать уменьшение размера, например PCA. Он не будет таким же, как выбор функции, но должен обеспечивать аналогичные преимущества (сохраняйте только самые важные сигналы, отбрасывайте остальные).

+2

Я проголосовал за ваш ответ, но если вы можете объяснить свой второй пункт по уменьшению размера в выборе значения важности. Я не уверен, что OP получит эту точку (и для другого читателя тоже) – eliasah

+0

@eliasah Отредактировано в соответствии с запросом. – user7337271