Я немного новичок с Java regex, поэтому мне интересно, может ли кто-нибудь помочь, когда мне нужно регулярное выражение для разделения текста на основе ngrams. Так что, если у меня есть текст, как это:Java regex для сохранения ngrams в квадратных скобках
dyson [salisbury matheson beaumont] clarke [carstairs morden] vaughan
Чтобы вернуть следующие ngrams:
Unigram: dyson Trigram: salisbury matheson beaumont Unigram: clarke Bigram: carstairs morden Unigram: vaughan
Содержимое квадратных скобок сохранившиеся в биграммах или триграммах?
Разделение будет основано на пробелах вне скобок.
, что происходит, если у вас есть что-то вроде «Dyson [Солсбери Матесона Beaumont] кларк Дэвидсона [Карстейрс морден] vaughan "? – user3334690
clarke и davidson - это униграммы. –
, поэтому результат будет примерно таким, как [«dyson», «salisbury matheson beaumont», «clarke», «davidson», «carstairs morden», «vaughan»]? это то, что я думал, но это не очень понятно из вашего вопроса ... Я почти ниспровернулся, прежде чем понял, что вы имели в виду. – user3334690