Я хотел был бы сосчитать документы, в которых две строки отображаются на заданном расстоянии в пределах 10 слов друг от друга. Скажем, «немецкий» и «война». Я не хочу подсчитывать время, которое они отображаются в целом, но только количество документов, в которых появляется набор (если он появляется один раз, считайте его одним).Как подсчитать документы, в которых два слова появляются в непосредственной близости от R?
Я знаю, как считать документы, содержащие слово. Но я не уверен, нужно ли мне извлекать 10 граммов и посмотреть, появляются ли два слова, а затем подсчитать это на одном документе или, если есть более эффективный способ.
Насколько огромны документы? Моя первая идея состоит в том, чтобы держать каждый документ в списке как одну строку, а затем grep все frase от немецкого до войны как регулярное выражение. Затем разделите результат на слова и подсчитайте их. –
Они довольно большие (до 500 МБ). –
Итак, я предполагаю, что каждая строка документа в другой строке? Затем grep ваши ключевые слова. Тогда я думаю, ваши данные будут намного меньше. После этого, если строки близки друг к другу, вы можете присоединиться к ним и подсчитать слова между немецкими и военными. –