0

У меня есть 6-мерный учебный набор данных, где есть идеальный числовой атрибут, который разделяет все примеры обучения таким образом: если TIME < 200, то пример принадлежит классу 1, если TIME> = 200, то пример принадлежит классу2. J48 создает дерево только с 1 уровнем, и этот атрибут является единственным узлом.Рассматривается ли это правило дерева решений с идеальным атрибутом?

Однако тестовый набор данных не следует этой гипотезе, и все примеры пропускаются. У меня возникли проблемы с выяснением того, считается ли это дело чрезмерным или нет. Я бы сказал, что это не так, как набор данных настолько прост, но, насколько я понял определение наложения, это подразумевает высокий уровень подготовки к данным обучения, и это я, что у меня есть. Любая помощь?

+0

Существуют ли другие классы помимо class1 и class2? – user3386109

+0

Нет, только два класса. – vandermies

+0

Тогда зачем вам больше информации, чтобы классифицировать примеры? Другими словами, данные обучения ошибочны, потому что вы * не нуждаетесь в дополнительной информации для классификации примеров. – user3386109

ответ

1

Однако тестовый набор данных не соответствует этой гипотезе, и все примеры классифицируются как missclassified. У меня возникли проблемы с выяснением того, считается ли это дело чрезмерным или нет. Я бы сказал, что это не так, как набор данных настолько прост, но, насколько я понял определение наложения, это подразумевает высокий уровень подготовки к данным обучения, и это я, что у меня есть. Любая помощь?

Обычно отличный результат обучения и плохое тестирование означает переобучение. Но это предполагает IID данных, и вы явно нарушаете это предположение - ваши данные обучения полностью отличаются от тестовых (существует четкое правило для данных обучения, которое не имеет смысла для тестирования). Другими словами, ваш раскол поезда/теста неверен, или вся ваша проблема не соответствует основным предположениям о том, где использовать статистический мл. Конечно, мы часто подходим к модели без правильных предположений о данных, в вашем случае - самый естественный подход - отказаться от функции, которая больше всего нарушает предположение - того, что используется для построения узла. Подобные «экспертные решения» должны быть выполнены до создания любого классификатора, вам нужно подумать о «чем отличается в тестовом сценарии по сравнению с обучением» и удалить вещи, которые показывают эту разницу, - иначе у вас будет тяжелый перекос в ваших данных поэтому статистические методы потерпят неудачу.

1

Да, это наряд. Первое правило создания обучающего набора - сделать его похожим на любой другой набор, насколько это возможно. Тренировочный набор явно отличается от любого другого. У него есть ответ, встроенный в него, пока ваш тестовый набор не работает. Любой алгоритм обучения, скорее всего, найдет корреляцию с ответом и будет использовать его, и, подобно алгоритму J48, будет рассматривать другие переменные как шум. Программный эквивалент Clever Hans.

Вы можете преодолеть это путем удаления переменной или путем обучения на множестве, произвольно выбранном из всего доступного набора. Однако, поскольку вы знаете, что есть подмножество со встроенным основным намеком, вы должны удалить подсказку.

Вам повезло. Иногда эти подсказки могут быть довольно тонкими, которые вы не обнаружите, пока не начнете применять модель к будущим данным.