Извлеките образец слов вокруг определенного слова, используя stringr в R

Я видел пару подобных вопросов, размещенных на SO по этой теме, но они, похоже, неправильно написаны (example) или на другом языке (example) ,Извлеките образец слов вокруг определенного слова, используя stringr в R

В моем сценарии я рассматриваю все, что окружает пустое пространство, чтобы быть словом. Смайлики, цифры, строки букв, которые на самом деле не слова, мне все равно. Я просто хочу получить некоторый контекст вокруг найденной строки, не прочитав весь файл, чтобы выяснить, является ли это допустимым.

Я попытался использовать следующее, но это занимает некоторое время, чтобы работать, если у вас есть длинный текстовый файл:

text <- "He served both as Attorney General and Lord Chancellor of England. After his death, he remained extremely influential through his works, especially as philosophical advocate and practitioner of the scientific method during the scientific revolution. Bacon has been called the father of empiricism.[6] His works argued for the possibility of scientific knowledge based only upon inductive and careful observation of events in nature. Most importantly, he argued this could be achieved by use of a skeptical and methodical approach whereby scientists aim to avoid misleading themselves. While his own practical ideas about such a method, the Baconian method, did not have a long lasting influence, the general idea of the importance and possibility of a skeptical methodology makes Bacon the father of scientific method. This marked a new turn in the rhetorical and theoretical framework for science, the practical details of which are still central in debates about science and methodology today. Bacon was knighted in 1603 and created Baron Verulam in 1618[4] and Viscount St. Alban in 1621;[3][b] as he died without heirs, both titles became extinct upon his death. Bacon died of pneumonia in 1626, with one account by John Aubrey stating he contracted the condition while studying the effects of freezing on the preservation of meat." 

stringr::str_extract(text, "(.*?\\s){1,10}Verulam(\\s.*?){1,10}")

Я предполагаю, что есть много, гораздо быстрее/более эффективного способа, в котором для этого, да?

источник

2015-12-21 brittenb

Вас интересует только первое совпадение строк? Я думаю, вы хотите больше, чем это. – fishtank

@fishtank Я бы хотел больше, чем первый, поэтому я подправил ответ ниже, чтобы использовать 'stringr :: str_extract_all' в отличие от' stringr :: str_extract' – brittenb

Попробуйте это:

stringr::str_extract(text, "([^\\s]+\\s){3}Verulam(\\s[^\\s]+){3}") 
# alternately, if you like " " more than \\s: 
# stringr::str_extract(text, "(?:[^ ]+){3}Verulam(?: [^ ]+){3}") 

#[1] "and created Baron Verulam in 1618[4] and"

Изменить номер внутри {}, чтобы удовлетворить ваши потребности.

Вы также можете использовать группы без захвата (?:), хотя я еще не уверен, улучшит ли это скорость.

stringr::str_extract(text, "(?:[^\\s]+\\s){3}Verulam(?:\\s[^\\s]+){3}")

источник

2015-12-21 20:31:14 Jota

Мне очень нравится -линейный подход. Он чист, и регулярное выражение не сложно понять. Я сделал небольшую модификацию в моем случае использования, чтобы разрешить совпадения, которые могут быть внутри пасетов или в конце предложения, в дополнение к тому, чтобы допускать различное количество слов до и после для сценария, в котором слово находится ближе к концу текста. Он также соответствует всем экземплярам слова вместо первого. 'stringr :: str_extract_all (текст," ([^ \\ s] + \\ s) {1,5} Верулам (\\ s [^ \\ s] +) {1,5} ")' – brittenb

Это должно read 'stringr :: str_extract_all (текст," ([^ \\ s] + \\ s) {1,5} Verulam.?(\\ s [^ \\ s] +) {1,5} ")' вместо того, что он говорит. Я просто понял это и не могу сейчас отредактировать комментарий. Добавленный '.?' разрешает период, запятую , или скобки после слова. – brittenb

@brittenb Я думаю, вы хотите '{0,5}' вместо '{1,5}', если вам нужны слова, которые начинаются или заканчиваются текстом. – fishtank

Я бы использовал unlist(strsplit), а затем проиндексировал полученный вектор. Вы могли бы сделать его функцию так, чтобы число слов, чтобы принести до и после является гибким параметром:

getContext <- function(text, look_for, pre = 3, post=pre) { 
    # create vector of words (anything separated by a space) 
    t_vec <- unlist(strsplit(text, '\\s')) 

    # find position of matches 
    matches <- which(t_vec==look_for) 

    # return words before & after if any matches 
    if(length(matches) > 0) { 
    out <- 
     list(before = ifelse(m-pre < 1, NA, 
          sapply(matches, function(m) t_vec[(m - pre):(m - 1)])), 
      after = sapply(matches, function(m) t_vec[(m + 1):(m + post)])) 

    return(out) 
    } else { 
    warning('No matches') 
    } 
}

Работы по одной игре

getContext(text, 'Verulam') 

# $before 
#  [,1]  
# [1,] "and"  
# [2,] "created" 
# [3,] "Baron" 
# 
# $after 
#  [,1]  
# [1,] "in"  
# [2,] "1618[4]" 
# [3,] "and"

работает также, если есть более чем один матч

getContext(text, 'he') 

# $before 
#  [,1]  [,2]   [,3]   [,4]  
# [1,] "After" "nature."  "in"   "John" 
# [2,] "his" "Most"   "1621;[3][b]" "Aubrey" 
# [3,] "death," "importantly," "as"   "stating" 
# 
# $after 
#  [,1]   [,2]  [,3]  [,4]   
# [1,] "remained" "argued" "died" "contracted" 
# [2,] "extremely" "this" "without" "the"  
# [3,] "influential" "could" "heirs," "condition" 

getContext(text, 'fruitloops') 
# Warning message: 
# In getContext(text, "fruitloops") : No matches

источник

2015-12-21 20:02:07 arvi1000

приятное решение, но нужно обработать отрицательное индексирование else 'getContext (текст, «Он») 'не будет работать. – fishtank

Да, мне тоже нравится это решение, но однострочный снимок с некоторыми изменениями лучше подходит для этой ситуации. – brittenb

@ фиштанк - хорошая точка, под редакцией. Также подумал об использовании 'pmin (0, m - pre)', но таким образом результат «за пределами границ» будет таким же для элементов «до» и «после» (т.е. как NA) – arvi1000

Если вы не против тройные данные, вы можете сделать data.frame, которая обычно является наилучшим вариантом для работы в R.

context <- function(text){ 
    splittedText <- strsplit(text, ' ', T)[[1]] 
    print(splittedText) 

    data.frame(
    words = splittedText, 
    before = head(c('', splittedText), -1), 
    after = tail(c(splittedText, ''), -1) 
) 
}

Намного чище IMO:

info <- context(text) 

print(subset(info, words == 'Verulam')) 

print(subset(info, before == 'Lord')) 

print(subset(info, grepl('[[:digit:]]', words))) 

#  words before #after 
# 161 Verulam Baron in 
#  words before after 
# 9 Chancellor Lord of 
#    words before after 
# 43 empiricism.[6]  of His 
# 157   1603  in and 
# 163  1618[4]  in and 
# 169 1621;[3][b]  in as 
# 187   1626,  in with

источник

2015-12-21 20:29:27 durum

Извлеките образец слов вокруг определенного слова, используя stringr в R

ответ

Смежные вопросы