2

В моем наборе данных классификации преступлений есть признаки, такие как has_rifle.двоичная классификация с разреженной двоичной матрицей

Задача заключается в подготовке и прогнозировании того, являются ли точки данных преступниками или нет. Метрика представляет собой взвешенную среднюю абсолютную ошибку, где, если человек является преступным, и модель предсказывает его/ее как нет, тогда вес большой как 5. Если человек не является преступником, и модель предсказывает, как он есть, тогда вес составляет 1. В противном случае модель предсказывает правильно, с весом 0.

Я использовал classif:multinom метод в mlr в R и настроил порог 1/6. Результат не так уж хорош. Adaboost немного лучше. Хотя ни один из них не является совершенным.

Мне интересно, какой метод обычно используется в этой проблеме двоичной классификации с разреженной матрицей {0,1}? И как улучшить производительность, измеряемую средневзвешенной метрикой абсолютной ошибки?

+0

Я думаю, что лучше задать этот вопрос на http://stats.stackexchange.com/questions или http://datascience.stackexchange.com/users/13936 –

+0

Вы можете посмотреть этот чит-лист: http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html, даже если вы не кодируете в python. – Till

ответ

0

Работа с разреженными данными - это не тривиальная задача. Отсутствие информации затрудняет захват таких функций, как дисперсия. Я предлагаю вам искать методы кластеризации подпространств или, более конкретно, мягкую кластеризацию подпространств. Последний обычно определяет релевантные/нерелевантные размеры данных. Это хороший подход, когда вы хотите улучшить точность классификации.

 Смежные вопросы

  • Нет связанных вопросов^_^