2012-07-16 2 views
2

Поблагодарили бы за ваш ввод. Я строю регрессионную модель с помощью генетического программирования.Ошибка теста ниже, чем ошибка обучения

Если мое RMSE по тестовым данным (намного) ниже моего RMSE по данным обучения для соотношения данных в соотношении 1: 5, следует ли беспокоиться?

Данные испытаний нарисованы случайным образом без замены из набора из 24 точек данных. Модель была построена с использованием метода генетического программирования, поэтому количество функций, рамки моделирования и т. Д. Меняются, поскольку я минимизирую тренировку RMSE, упорядоченное по количеству узлов в дереве GP.

Является ли модель подогнанной? Или я должен минимизировать MSE вместо RMSE (я думал, что это будет то же самое, что и MSE, и минимум MSE будет совпадать с минимумом RMSE, если оптимизатор будет достаточно хорош, чтобы найти минимум)?

Tks

ответ

1

Так что ваша модель обучается на 20 из 24 точек данных и протестирована на 4 оставшихся точек данных?

Для меня это похоже на то, что вам нужно (много) больше данных, поэтому у вас могут быть большие поезда и испытательные комплекты. Я не удивлен низкой производительностью вашего тестового набора, поскольку кажется, что ваша модель не смогла извлечь уроки из таких немногих данных. Как правило, для машинного обучения у вас никогда не будет достаточно данных. Возможно ли собрать более крупный набор данных?

+0

Вы правы, подозревая, что невозможно собрать более крупный набор данных. Производительность на тестовом наборе на самом деле очень хорошая>. <, Намного лучше, чем на тренировочном наборе. Я попытался выполнить шестикратную проверку. Средняя ошибка теста все еще очень низкая (RMSE). Что касается MAPE, производительность теста также очень хороша (менее 2%). Ошибка обучения больше, может быть на три порядка больше и больше. В RMSE и MAPE! – oalah

+0

А я это неправильно прочитал, я думал, что ваш тест плохо работает. Это действительно интересная ситуация. Является ли ваша производительность по данным обучения средней в течение всего периода обучения или только производительностью, измеренной после окончания обучения модели? – Sicco

+0

привет Sicco, тренировочное исполнение - это когда модель закончила обучение. – oalah