Я занимаюсь разработкой текста (PCA, HC, K-Means), и до сих пор мне удалось все правильно закодировать. Тем не менее, есть небольшой недостаток, который я хотел бы исправить.Исключительные слова с использованием пакета tm в R не работают должным образом?
Когда я пытаюсь остановить свой Корпус, он не работает должным образом, поскольку есть разные слова с одним и тем же радикалом, которые не определены правильно. Эти слова я особенно заинтересованы в (это на испанском языке, и они означают «дети» или связанных с ними):
niñera, niños, niñas, niña, niño
Но когда я запускаю код Я понимаю, что эти слова все еще то же самое для
кромеniña, niño --> niñ
Но другие остаются теми же, поэтому я заканчиваю тем, что только для niña/niño, но не для других.
Это мой код для создания корпуса:
corp <- Corpus(DataframeSource(data.frame(x$service_name)))
docs <- tm_map(corp, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, tolower)
docs <- tm_map(docs, removeWords, stopwords("spanish"))
docs <- tm_map(docs, stemDocument, language = "spanish")
docs <- tm_map(docs, PlainTextDocument)
dtm <- DocumentTermMatrix(docs)
dtm
Я действительно ценю некоторые предложения! Спасибо