Недавно я использовал классификатор Bag-of-Words для создания матрицы документов с 96% -ными сроками. Затем я использовал Дерево решений для обучения по модели на сумке ввода слов, чтобы предсказать, важно ли предложение или нет. Модель действительно хорошо работала в тестовом наборе данных, но когда я использовал набор данных для выборки, он не может предсказать. Вместо этого он дает ошибку.Использование мешков классификатора слов в наборе данных без выборки
Вот модель, которую я сделал в R
library('caTools')
library('tm')
library('rpart')
library(rpart.plot)
library(ROCR)
data= read.csv('comments.csv', stringsAsFactors = FALSE)
corpus = Corpus(VectorSource(data$Word))
# Pre-process data
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, stemDocument)
# Create matrix
dtm = DocumentTermMatrix(corpus)
# Remove sparse terms
#dtm = removeSparseTerms(dtm, 0.96)
# Create data frame
labeledTerms = as.data.frame(as.matrix(dtm))
# Add in the outcome variable
labeledTerms$IsImp = data$IsImp
#Splitting into train and test data using caTools
set.seed(144)
spl = sample.split(labeledTerms$IsImp , 0.60)
train = subset(labeledTerms, spl == TRUE)
test = subset(labeledTerms, spl == FALSE)
#Build CART Model
CART = rpart(IsImp ~., data=train, method="class")
Это работает совершенно отлично от тестирования набора данных, который точность около 83%. Однако, когда я использую эту модель корзины для прогнозирования на основе набора данных образца, это дает мне ошибку.
head(train)
terms A B C D E F..............(n terms)
Freqs 0 1 2 1 3 0..............(n terms)
head(test)
terms A B C D E F..............(n terms)
Freqs 0 0 1 1 1 0..............(n terms)
data_random = read.csv('comments_random.csv', stringsAsFactors = FALSE)
head(data_random)
terms A B D E F H..............(n terms)
Freqs 0 0 1 1 1 0..............(n terms)
Ошибка, которую я получаю, это «не удается найти C» в data_random. Я не знаю, что я должен сделать, чтобы сделать эту работу. Здесь лаплас сглаживает путь?
Эта ошибка не является [воспроизводимой] (http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example), потому что у нас нет «comments.csv». См. Встроенную ссылку для получения советов по созданию полных, минимальных воспроизводимых примеров, чтобы вам было легче помочь. – MrFlick