2016-11-29 2 views
0

Я использую пакет квантов K и последние версии как для R, так и для пакета. У меня есть свод документов, которые насчитывают миллионы.Quanteda - Применить функцию к DFM Переменные документа

Предположим, что у меня есть DFM, созданный из квандеды, с каждым документом, имеющим docvar даты. Есть тысячи документов, сгенерированных в определенный день, но я хочу получить DFM, применяемые к документам за день (чтобы у меня было общее количество слов для каждого термина в день). Я знаю, что квандады построены с использованием data.table, поэтому это должно быть возможно, но я мало нашел в «Приступая к работе с Quanteda» или в StackOverflow, что дает чистый способ сделать это.

Любые предложения?

ответ

1

Вы хотите доводом "групп к dfm:

> # Add some random dates to an existing corpus 
> docvars(data_corpus_inaugural)$date <- rep(as.Date(runif(19, 1, 18000), origin='1970-01-01'), 3) 

> dfm_inaugural <- dfm(data_corpus_inaugural, groups='date') 
> head(dfm_inaugural) 
Document-feature matrix of: 19 documents, 9,215 features (80.8% sparse). 
(showing first 6 documents and first 6 features) 
      features 
docs   fellow citizens i appear before you 
    1970-12-27  4  7 39  2  10 17 
    1972-04-25  8  13 29  1  8 8 
    1973-08-22  1  3 48  1  6 1 
    1973-10-11  2  4 25  0  3 5 
    1974-01-05  3  9 57  0  7 2 
    1975-04-12  7  21 63  4  6 16 

 Смежные вопросы

  • Нет связанных вопросов^_^