2010-09-28 2 views
2

здесь некоторый код:Python RE - разные соответствия для finditer и FindAll

>>> p = re.compile(r'\S+ (\[CC\])+\S+') 
>>> s1 = 'always look [CC] on the bright side' 
>>> s2 = 'always look [CC] [CC] on the bright side' 
>>> s3 = 'always look [CC] on the [CC] bright side' 
>>> m1 = p.search(s1) 
>>> m1.group() 
'look [CC] on' 
>>> p.findall(s1) 
['[CC] '] 
>>> itr = p.finditer(s1) 
>>> for i in itr: 
...  i.group() 
... 
'look [CC] on' 

Очевидно, что это более актуально для нахождения всех матчей в s3, в котором FindAll возвращается: [ '[CC]', «[ CC] '], так как кажется, что findall соответствует только внутренней группе в p, а finditer соответствует всему шаблону.

Почему это происходит?

(я определил p так, как я сделал, чтобы разрешить шаблоны захвата, содержащие последовательности [CC] s, такие как «смотреть [CC] [CC] on» в s2).

Благодаря

ответ

1

i.group() возвращает весь матч, в том числе не-пробельных символов до и после вашей группы. Для того, чтобы получить тот же результат, как и в вашем findall например, использовать i.group(1)

http://docs.python.org/library/re.html#re.MatchObject.group

In [4]: for i in p.finditer(s1): 
...:  i.group(1) 
...:  
...:  
Out[4]: '[CC] ' 
+0

Я не уверен, я понимаю. findall() возвращает список соответствующих строк. Как я могу использовать группу (1) на ее выходе? – ScienceFriction

+0

Нет, вы используете группу элементов в итераторе, возвращаемых из 'p.finditer (s1)'. Я добавил пример в свой ответ. –

+0

ах, спасибо. Я знаю, как использовать группу (1) с итератором. дело в том, что я хочу получить тот же результат, что и в finditer - я хочу получить весь шаблон. Я не понимаю, почему findall не возвращает полный шаблон. – ScienceFriction