Я практикую MapReduce с Cloudera turotial here. Однако, в настоящее время руководство предназначено только разделить слова пробелом с этим регулярное выражение в Java:Как отделить слово запятой, пробелом, периодом (.), Tab ( t), скобками(), скобками [] и фигурными фигурными скобками ({}) символов в wordcount hadoop?
private static final Pattern WORD_BOUNDARY = Pattern.compile("\\s*\\b\\s*");
Однако, в дополнение к пространству "\\s*"
, я также хочу, чтобы определить отдельные слова через запятую, период и вкладки ((.) \ t), скобки(), скобки [] и фигурные фигурные скобки ({}). Другими словами, я определяю слово как строку, которая имеет один или несколько буквенно-цифровых символов, ограниченных двумя не буквенно-цифровыми символами. Например:
- (cece54) имеет одно слово "cece54" ограниченный
()
- {DWD] имеет одно слово "МСГ" ограниченная
{]
- ххх) имеет одно слово "ххх" связаны
<space>
и)
- и так далее.
Так как должно быть написано мое регулярное выражение, чтобы получить это требование?
Большое вам спасибо, это работает как шарм! Вы сохраняете мою благодарность! Будьте здоровы. – weefwefwqg3