Итак, у меня есть документ corpus, и мне нужно найти все слова, которые являются капиталом (т.е. каждый символ в этом слове является капиталом) во всех документах в Р. Я не уверен, как это найти. Я просмотрел пакет интеллектуального текста «tm» в R и нет таких функций, которые могут его найти.Как найти все заглавные слова в корпусе в R

Строка ввода: "Russia Is THE BiggEST cOUNTRY"

Выход требуется: "THE"

Как это сделать с помощью пакета "ТМ"?

источник

2016-09-14 J. Tang

Попробуйте использовать регулярное выражение.

sub('.*(\\b[A-Z]+\\b).*','\\1',string) 
#[1] "THE"

источник

2016-09-14 12:08:43

это найдет только один d, попробуйте, например, с помощью 'string <-" Russia IS Biggest cOUNTRY "' – Cath

Вы можете использовать gregexpr и regmatches:

unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc))) 
[1] "THE"

данные

abc <- "Russia Is THE BiggEST cOUNTRY"

источник

2016-09-14 12:19:55

С stringr (если вы хотите, чтобы найти все такие слова (как вектор) с колпачками не только первая):

источник

2016-09-14 12:27:37

Как найти все заглавные слова в корпусе в R

ответ

данные

Смежные вопросы