Я пишу парсер для языка программирования в ANTLR4. В основном я хочу игнорировать пробелы, однако есть некоторые случаи, когда важно использовать его для обозначения границы между токенами.ANTLR4 - Дополнительное пустое пространство на моем языке
Например, при разборе операторского приложения myvar = this + that
мой текущий синтаксический анализатор будет принимать this+that
как один длинный идентификатор. Это приведет к сбою синтаксического анализа, поскольку символы не разрешены в именах. В настоящее время я пропускаю все пробелы, что вызывает эту проблему, но я не могу найти решение, которое позволяет мне делать необязательные пробелы, но также использовать его для обозначения этих границ.
Мой парсер ниже вместе с тестовым кодом, который я пытаюсь проанализировать.
Parser:
grammar archie;
// Parser Rules
program: line* EOF;
line: (element | COMMENT) (';' | '\n' | ';\n')+;
//assignment: identifier EQ element;
element:
//Function Call
element elementList |
//Function Literal
nameList FARROW element |
//Identifier
identifier |
//CombinedID
element (DOT name)+ |
//assignment
identifier EQ element |
O_C_BRACK (element (';' | '\n' | ';\n'))* C_C_BRACK |
element name element
;
elementList: O_R_BRACK element? (COMMA element)* C_R_BRACK;
identifier: (name (DOT name)*);
nameList: O_R_BRACK name? (COMMA name)* C_R_BRACK;
name: (ALPHABET | SYMBOL+) (ALPHABET | NUMERIC)*;
NUMERIC: [0-9];
ALPHABET: [a-zA-Z];
SYMBOL : [~!$^*&+#<>?|];
FARROW: '=>';
WS: [ \t]+ -> skip;
SKP: [\r]+ -> skip;
COMMENT: '//' (ALPHABET | SYMBOL | NUMERIC | WS)*;
DOT: '.';
COMMA: ',';
EQ: '=';
O_R_BRACK: '(';
C_R_BRACK: ')';
O_C_BRACK: '{';
C_C_BRACK: '}';
Код проверки:
this.that = that.this;
this.this = that.other;
that = this;
that =() => that;
a();
this + that;