2012-08-16 1 views
1

Это оптимизированная версия токенизатора, которая была впервые написана, и работает довольно хорошо. Вторичный токенизатор может анализировать выходные данные этой функции для создания классифицированных токенов большей специфичности.Как переписать простой токенизатор для использования регулярных выражений?

def tokenize(source): 
    return (token for token in (token.strip() for line 
      in source.replace('\r\n', '\n').replace('\r', '\n').split('\n') 
      for token in line.split('#', 1)[0].split(';')) if token) 

Мой вопрос заключается в следующем: , как это может быть написано просто с re модулем? Ниже приведена моя неэффективная попытка.

def tokenize2(string): 
    search = re.compile(r'^(.+?)(?:;(.+?))*?(?:#.+)?$', re.MULTILINE) 
    for match in search.finditer(string): 
     for item in match.groups(): 
      yield item 

Edit: Это тип вывода, что я ищу с Tokenizer. Разбор текста должен быть простым.

>>> def tokenize(source): 
    return (token for token in (token.strip() for line 
      in source.replace('\r\n', '\n').replace('\r', '\n').split('\n') 
      for token in line.split('#', 1)[0].split(';')) if token) 

>>> for token in tokenize('''\ 
a = 1 + 2; b = a - 3 # create zero in b 
c = b * 4; d = 5/C# trigger div error 

e = (6 + 7) * 8 
# try a boolean operation 
f = 0 and 1 or 2 
a; b; c; e; f'''): 
    print(repr(token)) 


'a = 1 + 2' 
'b = a - 3 ' 
'c = b * 4' 
'd = 5/c ' 
'e = (6 + 7) * 8' 
'f = 0 and 1 or 2' 
'a' 
'b' 
'c' 
'e' 
'f' 
>>> 
+0

будет применять матч регулярного выражения к 'if' заявлению в конце вашего генератора понимания сделать это? – tMC

+0

Нет, одна из проблем заключается в том, что выражение типа 'a; b; c' возвращает '(' a ',' c ')' и 'a # b' возвращает' (' a ', None) '. –

ответ

1

Я мог бы быть далеко здесь-

>>> def tokenize(source): 
...  search = re.compile(r'^(.+?)(?:;(.+?))*?(?:#.+)?$', re.MULTILINE) 
...  return (token.strip() for line in source.split('\n') if search.match(line) 
...     for token in line.split('#', 1)[0].split(';') if token) 
... 
>>> 
>>> 
>>> for token in tokenize('''\ 
... a = 1 + 2; b = a - 3 # create zero in b 
... c = b * 4; d = 5/C# trigger div error 
... 
... e = (6 + 7) * 8 
... # try a boolean operation 
... f = 0 and 1 or 2 
... a; b; c; e; f'''): 
...  print(repr(token)) 
... 
'a = 1 + 2' 
'b = a - 3' 
'c = b * 4' 
'd = 5/c' 
'e = (6 + 7) * 8' 
'f = 0 and 1 or 2' 
'a' 
'b' 
'c' 
'e' 
'f' 
>>> 

Если это применимо, я бы держать re.compile из def области.

+0

Спасибо! Я надеялся получить все это в одном регулярном выражении, которое будет выполнять всю работу по токенизации, но код работает достаточно хорошо. Кто-нибудь еще может написать «lambda source: re.finditer (PATTERN, source, FLAGS)», где они определяют PATTERN и FLAGS. Это был бы отличный опыт обучения. –

+0

Вы не должны быть '.strip()' возвращающее значение? – Ben

1

Вот один основан от вашей функции tokenize2:

def tokenize2(source): 
    search = re.compile(r'([^;#\n]+)[;\n]?(?:#.+)?', re.MULTILINE) 
    for match in search.finditer(source): 
     for item in match.groups(): 
      yield item 

>>> for token in tokenize2('''\ 
... a = 1 + 2; b = a - 3 # create zero in b 
... c = b * 4; d = 5/C# trigger div error 
... 
... e = (6 + 7) * 8 
... # try a boolean operation 
... f = 0 and 1 or 2 
... a; b; c; e; f'''): 
...  print(repr(token)) 
... 
'a = 1 + 2' 
' b = a - 3 ' 
'c = b * 4' 
' d = 5/c ' 
'e = (6 + 7) * 8' 
'f = 0 and 1 or 2' 
'a' 
' b' 
' c' 
' e' 
' f' 
>>>