Есть ли способ сделать следующее для текстовых файлов с символами Unicode, например. китайский/японский:Как сделать re.findall (' w +', fin.read()) для unicode? python
with io.open(infile, 'r', encoding='utf8') as fin:
words = re.findall('\w+', fin.read())
x = Counter(zip(words,words[1:]))
print x
Я пытался, но x
возвращает:
[]
я думаю, я мог бы также сделать 'fin.read(). Расколу()' – alvas
Pass [ 'флаги = re.U'] (https://docs.python.org/2/library/ re.html # re.U). –