Как сделать re.findall ('\ w +', fin.read()) для unicode? python

Есть ли способ сделать следующее для текстовых файлов с символами Unicode, например. китайский/японский:Как сделать re.findall (' w +', fin.read()) для unicode? python

with io.open(infile, 'r', encoding='utf8') as fin: 
    words = re.findall('\w+', fin.read()) 
    x = Counter(zip(words,words[1:])) 
print x

Я пытался, но x возвращает:

[]

источник

2014-10-13 alvas

я думаю, я мог бы также сделать 'fin.read(). Расколу()' – alvas

Pass [ 'флаги = re.U'] (https://docs.python.org/2/library/ re.html # re.U). –

Как прокомментировал Ashwini Чаудхари, вам нужно указать re.U или re.UNICODE флаг для создания шаблона \w зависит от базы данных символов Юникода.

>>> re.findall('\w+', u'單語') 
[] 
>>> re.findall('\w+', u'單語', flags=re.UNICODE) 
[u'\u55ae\u8a9e']

источник

2014-10-13 13:14:53 falsetru

Как предложил @Ashiwini, это сработало:

words = re.findall('\w+', trgfin.read(), flags=re.U) 
x = Counter(zip(words, words[1:])

источник

2014-10-13 13:14:40 alvas

Как сделать re.findall ('\ w +', fin.read()) для unicode? python

ответ

Смежные вопросы