2015-10-02 2 views
3

Как мы обычно определяем, важна ли данная переменная (функция) в наборе данных или нет для точного выполнения задачи прогнозирования?Определить важность переменной при анализе данных

Какие все тесты должны проводиться и использоваться для определения пригодности переменной в прогнозировании?

Предположим, у меня есть 32 функции, и один из них - «доход», то как я должен начать анализировать его важность. Есть ли какая-либо польза для сравнения этой функции с другими функциями, потому что в конце ее коллекция переменных, которые помогут в предсказании, не эти две переменные, которые сравниваются ...

ответ

2

Начать здесь (особенно в разделе «Выбор функций» Учебники и рецепты):

http://machinelearningmastery.com/an-introduction-to-feature-selection/

И там (указывает количество доступных методов для дальнейшего Googling):

https://en.wikipedia.org/wiki/Feature_selection

также хорошая статья с более общей дискуссии по данному вопросу:

http://www.jmlr.org/papers/volume3/guyon03a/guyon03a.pdf

Также самый простой способ, чтобы попытаться соответствовать RandomForest или Градиент Boosting машины на наборе данных. Эти алгоритмы автоматически оценивают важность каждой функции во время установки, после того, как классификатор или регрессор подходят, вы можете получить доступ (в scikit-learn) его feature_importances_ - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html