2016-06-08 11 views
0

Я работаю над набором данных Titanic. Я пытаюсь заполнить пробелы в столбце CABIN. Я извлек первую букву из значений столбца CABIN, а затем разместил их в столбце CABIN_NEW. После этого я использую rpart для прогнозирования, но как-то каждый раз, когда я запускаю код ниже, R занимает много времени (еще не закончил один раз, каждый раз, я должен его прекратить).rpart исполнение в R Studio

DATAset имеет 1309 строк, а столбцы, которые я использую, приведены ниже в коде. Система Я использую работает на 4 Гб оперативной памяти, процессор i5 и Window 7.

combifit <- rpart(Cabin_New ~ Pclass + Sex + Age + SibSp + Parch + Fare + Embarked + Title 
        + FamilySize + Surname + FamilyID, 
        data = combi[!is.na(combi$Cabin_New),], method = 'class') 

ответ

0

Я вижу, что вы использовали много переменных факторов. Пожалуйста, проверьте, сколько факторов присутствует в каждом из факторов. Если это высоко, давайте скажем для фамилии, если это 100, тогда R придется создавать 100 переменных и т. Д. Для всех других факторов. Поэтому я предполагаю, что из-за этих переменных факторов rpart должен заглядывать в множество переменных, чтобы принять решение о разделении. Следовательно, потребуется много времени.

также прочитать немного на rpart.control, так как число разделений, что делает rpart зависит от параметров, которые передаются в rpart .В примере cp является одним из таких параметров. Его значение по умолчанию - 0,01. Попробуйте изменить его значение от 0,5 до 0,1. Играйте аналогично другим параметрам, и вы можете быстрее запустить rpart.