2015-11-23 3 views
1

Я новичок в обучении машинам. Извините, если на моем английском языке есть ошибки.Машиноведение Классификация и предикация в weka

Я использую классификацию weka J48 для прогнозирования в истинном или ложном. У меня почти 999K тренировочный набор, который я использовал для обучения модели. Я использовал метод перекрестной проверки в 3 раза для обучения Модели, которая дает мне точность ~ 84%.

Теперь после хранения модели. Я попытался проверить его на наборе данных 50k. что дает очень плохие результаты, а 50% из них несоответствуют. У меня есть 11 атрибутов с номинальными и числовыми полями.

Я не знаю, почему это происходит.

У меня есть два вопроса.

  1. Как я могу тренироваться, чтобы лучше работать на тестовом наборе.
  2. Какие могут быть проблемы.

Я использую weka api в java.

+0

Как вы выбрали тест 50K для тестирования? –

+0

На самом деле, я использую 30 дней данных обучения и 1 день данных для тестирования и прогнозирования. – Maxi

+0

Как вы получаете 1 день тестовых данных? –

ответ

2

Это означает, что ваша модель overfit для вашего набора 999k и не очень хорошо подходит для вашего набора тестов 50k.

В дополнение к вашим 999k вы должны изучить кросс-валидацию с помощью (хорошей порции, но не всех) вашего набора данных 50k.

Возможно, вы также захотите попробовать нечто большее, чем k = 3, k-fold crossvalidation, потому что k = 3 раза может быть слишком «грубым». Удачи!

+0

Спасибо, я использую 1/3 из 999K для тестирования на 2/3, а затем используя тестовый набор данных для прогнозирования. Что именно вы предлагаете. Не могли бы вы рассказать немного больше. Как я могу справиться с этой проблемой. Я подумал, что чем больше данных у меня есть, тем лучше. – Maxi

+0

(чтение комментариев выше). Ваш один день данных для тестирования и прогнозирования не «ведет себя» как предыдущие 30 дней, используемые для обучения. Итак, как насчет того, чтобы вы использовали смесь данных со всех дней, разделяя AM/PM или по часам? таким образом, любые характеристики того, что вы используете для тестирования/прогнозирования, также могут быть правильно смоделированы/обучены. Вы также можете задать более конкретные вопросы на конкретном форуме для машинного обучения. Ура! –

+0

Я пытаюсь предсказать будущие результаты, основанные на построении модели на исторических данных. Поэтому я не могу смешивать эти два. Можете ли вы предложить некоторый инструмент, который может обрабатывать огромные массивы данных для деревьев решений, если вы знаете. Еще раз спасибо, Cheers – Maxi

 Смежные вопросы

  • Нет связанных вопросов^_^