2017-02-10 5 views
0

Прошу прощения за новый вопрос, но я новичок в разработке текста, и вам нужны советы по профилю. Теперь, после долгих мучений с content_transformer я иметь чистый корпус Следующий вопросУпорядочить слова матрицы документов по частоте в R

1. How select from `dtm` the words with small frequencies , so that the amount of frequencies was not more than 1% 

Например я нужен этот формат

x 0,5% of all words in the dataset 
y 0,2% 
z 0,3% 

так здесь общей частоты сумма = 1% Как это сделать?

ответ

0

Вы можете ознакомиться с функцией termDocumentMatrix пакета tm. Это способ подсчета вхождения слов в документ. Добавление этих чисел по всему корпусу должно вести вас туда, где вы хотите быть.

dtm <- DocumentTermMatrix(corpus) 
# wordcounts for complete corpus 
counts <- colSums(as.matrix(dtm)) 

# number of documents 
nb <- length(counts) 
# frequencies 
freqs <- counts/nb 
+0

могли бы вы показать код, пожалуйста, и и как выбрать слова с малыми частотами, так что количество частот не более 1% Спасибо – fenton

+0

Спасибо, это хорошо. Но как найти слова, суммарная частота которых равна = 1% и записать ее в новый набор данных, можете ли вы показать мне код? – fenton

 Смежные вопросы

  • Нет связанных вопросов^_^