Я сейчас пытаюсь привыкнуть к Python и недавно ударил блок в своей кодировке. Я не мог запустить код, который бы подсчитал количество раз, когда фраза появляется в html-файле. Недавно я получил некоторую помощь в создании кода для подсчета частоты в текстовом файле, но мне интересно, есть ли способ сделать это непосредственно из html-файла (чтобы обойти альтернативу копирования и вставки). Любые советы будут искренне оценены. Предыдущее кодирование я использовал следующее:Подсчет частот фраз в html-файле
#!/bin/env python 3.3.2
import collections
import re
# Defining a function named "findWords".
def findWords(filepath):
with open(filepath) as infile:
for line in infile:
words = re.findall('\w+', line.lower())
yield from words
phcnt = collections.Counter()
from itertools import tee
phrases = {'central bank', 'high inflation'}
fw1, fw2 = tee(findWords('02.2003.BenBernanke.txt'))
next(fw2)
for w1,w2 in zip(fw1, fw2):
phrase = ' '.join([w1, w2])
if phrase in phrases:
phcnt[phrase] += 1
print(phcnt)
Вы можете использовать 'collections.Counter' –
@Ashish Нитин Патил: К сожалению, это только дает мне возможность рассчитывать на слова, а не фразы – Raul