В моем наборе данных классификации преступлений есть признаки, такие как has_rifle
.двоичная классификация с разреженной двоичной матрицей
Задача заключается в подготовке и прогнозировании того, являются ли точки данных преступниками или нет. Метрика представляет собой взвешенную среднюю абсолютную ошибку, где, если человек является преступным, и модель предсказывает его/ее как нет, тогда вес большой как 5
. Если человек не является преступником, и модель предсказывает, как он есть, тогда вес составляет 1
. В противном случае модель предсказывает правильно, с весом 0
.
Я использовал classif:multinom
метод в mlr
в R
и настроил порог 1/6
. Результат не так уж хорош. Adaboost
немного лучше. Хотя ни один из них не является совершенным.
Мне интересно, какой метод обычно используется в этой проблеме двоичной классификации с разреженной матрицей {0,1}
? И как улучшить производительность, измеряемую средневзвешенной метрикой абсолютной ошибки?
Я думаю, что лучше задать этот вопрос на http://stats.stackexchange.com/questions или http://datascience.stackexchange.com/users/13936 –
Вы можете посмотреть этот чит-лист: http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html, даже если вы не кодируете в python. – Till