Я работаю над проектом машинного обучения, направленным на прогнозирование качества/полезности обзора. Для каждого обзора в наборе данных у меня есть текст обзора, число «м» для числа людей, которые проголосовали за обзор, и число «n» за количество положительных голосов в обзоре.Выбор алгоритма машинного обучения для базового уровня
Цель состоит в том, чтобы предсказать процент голосов, которые являются положительными:
n/m
я использую случайный лес для основного алгоритма, и пытается решить, что будет хороший алгоритм, используемый для базовый уровень.
Функциональный вектор для каждого обзора содержит представление присутствия слова обзора и число, представляющее общее количество слов в обзоре.
Я был бы признателен за любые предложения относительно того, какой алгоритм был бы хорош для базового метода для сравнения с моей случайной реализацией леса.
Спасибо!