Для моего исследования я пытаюсь подсчитать из корпуса количество раз (совпадение) ряда сложных терминов (например, Safety Hazard), хранящихся в файл, 1 строка за фразу, отображаются в окне 16 слов целевого ключевого слова (например, средства). Я не программист, пытаюсь разбить его на 2 элемента: сначала извлеките файл из корпуса, где у меня есть совпадение с ключевым словом-мишенью, с 8 словами до и после. Затем попытайтесь сопоставить мой «файл словарного запаса» с этим выпиской. Я на части 1, попробовал это, но я просто получаю сообщение _sre.SRE_Match в сообщении 0x028FFE78> и изо всех сил пытаюсь использовать репрезентацию: любые одобренные предложения или другие способы сделать это. В конечном счете, я хочу, чтобы файл экспорта имел свои словарные слова со счетом после них, указывая, как часто они были найдены в этом окне с моим целевым словом. Использование re.search логики основывается на том, что я нашел на это сообщение борту, поэтому я попытался это:Подсчет совпадений из файла словаря в окне, окружающем ключевое слово
input=open("Corpus.txt", "r")
matches=[]
lines=input.readlines()
for line in lines:
m=re.search(r'(\S+\s+){0,8}facility(\s+\S+){0,8}',line)
if m:
matches.append(m)
for m in matches:
output.write(str(m))
output.close()
Любая помощь оценили, Пол
Этот вид выглядит как python, минус indentation .... на каком языке он говорит, добавив эту информацию в свои тэги? Вы также можете уточнить, означает ли окно с 16 словами «{8 слов} {еще 8 слов}» или это гибкое окно. –
tink
Спасибо за ответ tink. Извините, мой первый пост здесь. Да, это Python, добавлен Python в качестве тега. Окно абсолютное в том, что не имеет значения, повторяются ли слова, мне просто нужно захватить 8 слов перед и 8 словами после. –
Paul