я покажу на примере:R wordstem рубящих слов слишком много
library(data.table)
dt <- data.table(words = c("finance", "financial", "business"),
freq = c(123, 5, 4589))
dt <- dt[, words := SnowballC::wordStem(words, language = "english")]
View(dt)
words freq
financ 123
financi 5
busi 4589
Я думал, что слово, вытекающее бы мне финансы, финансы и бизнес. Я бы по крайней мере ожидал, что финансовые и финансовые будут иметь одно и то же базовое слово. Я пытаюсь сгруппировать похожие слова, он работает для некоторых слов, как есть, и у обоих есть есть, но для некоторых, как выше, он, похоже, не работает, разве что Im непонимание?