С caret
пакета, при создании разделов данных 75% обучения и 25% теста, мы используем:Создание раздела данных в R
inTrain<- createDataPartition(y=spam$type,p=0.75, list=FALSE)
Примечание: набор данных называется spam
и целевой переменной называется type
Мой вопрос: в чем заключается цель включения аргумента y=spam$type
?
Разве не цель создания разделов данных просто для разделения всего набора данных на основе пропорции, необходимой для обучения и тестирования? Почему существует необходимость включить этот аргумент в код?
не 100%, но я верю, что это просто, чтобы передать команду какой переменной вы разбиваете данные. Я не уверен, что это имеет большое значение, кроме как уточнить, как разделять - проще понять компьютер. –
Где вы получили эту функцию «createDataPartition»? Что выводит 'str (inTrain)? – aichao
@ a.powell Что вы подразумеваете под словом «рассказать .. по какой переменной вы разбиваете данные»? Мое понимание разделения - это просто разбить все данные. Почему мы должны понимать, что «тип» - это моя целевая переменная на данном этапе? Я концептуально недопонимаю идею разделения данных? – Aiden