2016-09-14 2 views
1

Итак, у меня есть документ corpus, и мне нужно найти все слова, которые являются капиталом (т.е. каждый символ в этом слове является капиталом) во всех документах в Р. Я не уверен, как это найти. Я просмотрел пакет интеллектуального текста «tm» в R и нет таких функций, которые могут его найти.Как найти все заглавные слова в корпусе в R

Строка ввода: "Russia Is THE BiggEST cOUNTRY"

Выход требуется: "THE"

Как это сделать с помощью пакета "ТМ"?

ответ

1

Попробуйте использовать регулярное выражение.

sub('.*(\\b[A-Z]+\\b).*','\\1',string) 
#[1] "THE" 
+0

это найдет только один d, попробуйте, например, с помощью 'string <-" Russia IS Biggest cOUNTRY "' – Cath

2

Вы можете использовать gregexpr и regmatches:

unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc))) 
[1] "THE" 

данные

abc <- "Russia Is THE BiggEST cOUNTRY" 
2

С stringr (если вы хотите, чтобы найти все такие слова (как вектор) с колпачками не только первая):