2015-03-08 5 views
-1

Я работаю над проектом машинного обучения, направленным на прогнозирование качества/полезности обзора. Для каждого обзора в наборе данных у меня есть текст обзора, число «м» для числа людей, которые проголосовали за обзор, и число «n» за количество положительных голосов в обзоре.Выбор алгоритма машинного обучения для базового уровня

Цель состоит в том, чтобы предсказать процент голосов, которые являются положительными:

n/m 

я использую случайный лес для основного алгоритма, и пытается решить, что будет хороший алгоритм, используемый для базовый уровень.

Функциональный вектор для каждого обзора содержит представление присутствия слова обзора и число, представляющее общее количество слов в обзоре.

Я был бы признателен за любые предложения относительно того, какой алгоритм был бы хорош для базового метода для сравнения с моей случайной реализацией леса.

Спасибо!

ответ

1

Зависит от того, зачем вам это сравнение. Если вы пишете исследовательскую статью, то вам следует прочитать несколько статей (например, 2006, 2008, 2011) и узнать популярную базовую линию; если нет, просто возьмите самый старый подход. (Тем не менее, в этом случае вы должны сравнить с последним уровнем).

Другим вариантом является сравнение с модификациями вашего собственного метода: различные пространственные объекты или различные алгоритмы ML. Например, оставьте только одну функцию типа length - btw, она довольно распространена, поэтому, возможно, это действительно базовая линия, которую вы хотите.