У меня есть структура данных с двоичной переменной 0-1 (щелкните & Приобрести, нажмите & не-покупка) против вектора атрибутов. Я использовал логистическую регрессию, чтобы получить вероятность покупки. Как я могу использовать Random Forest для получения одинаковых вероятностей? Используется ли регрессия Random Forest? или это классификация случайного леса с типом = «prob» в R, который дает вероятность категориальной переменной?можем ли мы получить вероятности так же, как мы получаем их в логистической регрессии через случайный лес?
ответ
Это не даст вам тот же результат, поскольку структура двух методов отличается. Логистическая регрессия дается окончательной линейной спецификацией, где РФ является коллективным голосованием от нескольких независимых/случайных деревьев. Если спецификация и функция ввода правильно настроены для обоих, они могут дать сопоставимые результаты. Здесь основное различие между этими двумя:
РФ даст более надежную посадку от шума, выбросов, переобучение или мультиколлинеарности и т.д., которые являются общими ловушками в регрессии типа раствора. В принципе, если вы не знаете или не хотите много знать о том, что происходит с входными данными, RF это хороший старт.
Логистическая регрессия будет хорошей, если вы знаете, как умело использовать данные и как правильно определить уравнение. Или как-то захотите спроектировать, как работает подгонка/предсказание. Явная форма спецификации GLM позволит вам это сделать.
Что вы подразумеваете под «одинаковыми вероятностями»? Классификатор randomForest даст вам вероятности, но не те же значения, что и логистическая регрессия. Каковы размеры ваших данных? – Fernando
какое программное обеспечение вы используете? Р? h2o? Другие? – EngrStudent