2016-12-14 11 views
0

У меня есть структура данных с двоичной переменной 0-1 (щелкните & Приобрести, нажмите & не-покупка) против вектора атрибутов. Я использовал логистическую регрессию, чтобы получить вероятность покупки. Как я могу использовать Random Forest для получения одинаковых вероятностей? Используется ли регрессия Random Forest? или это классификация случайного леса с типом = «prob» в R, который дает вероятность категориальной переменной?можем ли мы получить вероятности так же, как мы получаем их в логистической регрессии через случайный лес?

+1

Что вы подразумеваете под «одинаковыми вероятностями»? Классификатор randomForest даст вам вероятности, но не те же значения, что и логистическая регрессия. Каковы размеры ваших данных? – Fernando

+0

какое программное обеспечение вы используете? Р? h2o? Другие? – EngrStudent

ответ

0

Это не даст вам тот же результат, поскольку структура двух методов отличается. Логистическая регрессия дается окончательной линейной спецификацией, где РФ является коллективным голосованием от нескольких независимых/случайных деревьев. Если спецификация и функция ввода правильно настроены для обоих, они могут дать сопоставимые результаты. Здесь основное различие между этими двумя:

  1. РФ даст более надежную посадку от шума, выбросов, переобучение или мультиколлинеарности и т.д., которые являются общими ловушками в регрессии типа раствора. В принципе, если вы не знаете или не хотите много знать о том, что происходит с входными данными, RF это хороший старт.

  2. Логистическая регрессия будет хорошей, если вы знаете, как умело использовать данные и как правильно определить уравнение. Или как-то захотите спроектировать, как работает подгонка/предсказание. Явная форма спецификации GLM позволит вам это сделать.