2017-01-24 11 views
0

У меня есть 40 входных категоричные поля, такие как «CpuModel» (1523 возможностей)Слишком много возможностей для категориальных полей

каждый из них может иметь тысячи возможностей.

Если я использую get_dummies, моя таблица panda будет содержать много фиктивных столбцов. Эти поля, которые я планирую использовать в качестве входных функций для алгоритмов машинного обучения.

Как я должен справиться с этим?

ответ

0

В этом случае вы должны использовать labelencoder.
, используя его в категориальном столбце, вернет столбец с численными значениями, которые представляют частотное число этих переменных.


ссылка: http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html


надежда, что помогает!

+0

Идея не определена. wld должны читать документацию. что касается точности, мой совет будет проверять оба, используйте тот, который дает лучший результат. – epattaro