Я анализирую медицинский набор данных, содержащий 15 переменных и 1,5 миллиона точек данных. Я хотел бы предсказать госпитализацию и, что более важно, какой тип лекарства может быть ответственным. Переменная медицины имеет около 700 видов лекарств. Кто-нибудь знает, как рассчитать важность «значения» (типа препарата в этом случае) в переменной для повышения?Мне нужно знать, лучше ли «лекарство А» для прогнозирования, чем «лекарство B», как в переменной, называемой «лекарством». Модель логистической регрессии может предоставлять такую информацию с точки зрения значений p для каждого препарата, но я бы хотел использовать более сложный метод. Из-за этого вы можете создать двоичную переменную для каждого типа лекарств, но это дает 700 дополнительных переменных и, похоже, не работает очень хорошо. В настоящее время я использую r. Надеюсь, вы поможете мне решить эту проблему. Заранее спасибо! С уважением ПитерМашинное обучение - вычисление важности «значения» в переменной
-1
A
ответ
0
см. varImp()
в библиотеке caret
, которая поддерживает все алгоритмы ML, на которые вы ссылались.
+0
Сделал работу, спасибо! –
Я попытался сузить его на примере и повысить. –