2015-09-22 6 views
-2

Я работаю над областью обработки текста и новичок в этом. Я файл, содержащий список слов с их соответствующими весами, как указано ниже:Как получить количество слов в документе, который уже присутствует в другом файле?

    Malfunction   Weight 
        malformed    1 
        unformed    0.9 
        intensive   0.8 
        malfunctioned  0.7 
        front    0.6 
        icu     0.5 
        injury    0.4 
        care     0.3 
        disease    0.2 
        diagnosis   0.1 

Теперь я хочу, чтобы проверить каждое из этих слов в списке с документом и получить счетчик появления каждого термина в документе , Может ли кто-нибудь сказать, как сделать то же самое в R?

Я использовал пакет tm, но не хочу делать матрицу term-document. Сначала мне нужно найти слова, которые соответствуют с выше, а затем мне нужно найти число появления этих слов в каждом документе

+1

Смотрите пакет [тм] (https://cran.r-project.org/web/packages/tm/), показать некоторые усилия, то сообщите нам, когда/если вы застряли. – zx8754

+0

Я использовал tm package. Этого я не хотел. Если бы я получил ответ от пакета tm, я, возможно, не разместил бы здесь вопрос. – Athira

+0

Если вы думаете об использовании tdm или dtm, мне не нужно найти tdm. Если у вас есть другой ответ, вы можете его опубликовать. – Athira

ответ

1

, если вам нужно более базовое введение рекомендую this book

если вы хотите посчитать эти десять слов вы можете использовать:

length(document.words.v[which(document.words.v=="malformed")]) 

для каждого слова

+2

намного короче: сумма (которая (document.words.v == "malformed")) –

+0

Спасибо, у меня появилась идея о том, как действовать. Я также посмотрел на пакет stringr. – Athira

 Смежные вопросы

  • Нет связанных вопросов^_^