0

Есть ли способ выбрать функции, когда у меня есть меньше, разреженные и несбалансированные данные.Выбор функции, когда данные меньше, разреженные и несбалансированные

Около 90% образцов являются порядковыми и 10% являются численными.

Количество функций: 200 Количество образцов: около 1000

+1

Там нет фиксированного подхода. Вы должны попробовать различные алгоритмы с перекрестной проверкой и посмотреть, что лучше всего подходит для вас. Если ни один алгоритм не работает, попробуйте ансамбль –

ответ

0

Да, можно сделать выбор функции для разреженных данных. Возможные подходы:

  • х-2 выбор функции на основе
  • RandomForestClassifier/RandomForestRegressor
  • xgboost

Попробуйте сделать выбор функции в исходном наборе данных и в сбалансированном наборе данных с использованием методов передискретизации (таких как SMOTE) или недосэмплирования. SMOTE выступает за перепроизводство синтетического меньшинства. Существует специальный пакет для балансировки несбалансированных наборов данных в Python. Вы можете использовать этот пакет https://pypi.python.org/pypi/imbalanced-learn.

В области выбора функций предпочтительнее знать какие-либо знания домена, как предложено в статье this, посвященной выбору функции. Сравните значение функции на сбалансированных и исходных данных, чтобы сделать окончательный выбор функций.

Ссылки:

http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakur/

http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/generated/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2

http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/feature_selection.html

https://www.cs.cmu.edu/afs/cs/project/jair/pub/volume16/chawla02a-html/node6.html

+0

AFAIK, эти методы требуют достаточного количества данных. Это так? Как вы думаете? Я использовал SMOTE для передискретизации с использованием несбалансированного обучения. – Gagan

+0

@Gagan Эти методы обычно хорошо работают, когда размер выборки составляет около 1000. Дополнительная информация http://www.biostathandbook.com/small.html – prashanth

+0

Его проблема с рекомендациями, поэтому я использовал KNN в конце. Для этого мне сначала нужно было выбрать функцию. Целевая переменная является номинальной. Теперь вы бы посоветовали мне использовать RF, выбор функции chi2 и т. Д.? – Gagan