разрывы строк или знаки препинания в виде разрывов позиций в elasticsearch

В поиске elasticsearch есть способ настроить анализатор, который будет создавать промежутки между токенами при разрыве строк или меток пунктуации?разрывы строк или знаки препинания в виде разрывов позиций в elasticsearch

Скажем, индекс I объект со следующей бессмысленные строки (с переводом строки) в качестве одного из полей:

The quick brown fox runs after the rabbit. 
Then comes the jumpy frog.

Стандартный анализатор даст следующие лексемы с соответствующими положениями:

0 the 
1 quick 
2 brown 
3 fox 
4 runs 
5 after 
6 the 
7 rabbit 
8 then 
9 comes 
10 the 
11 jumpy 
12 frog

Это означает, что запрос match_phrasethe rabbit then comes будет соответствовать этому документу как удару. Есть ли способ ввести промежуток между rabbit и then, чтобы он не совпал, если не введено slop?

Конечно, обходным путем может быть преобразование одной строки в массив (по одной строке для каждой записи) и использование position_offset_gap в сопоставлении полей, но я бы предпочел сохранить одну строку с символами новой строки (и конечное решение будет включать большие пробелы в позиции для строк новой строки, чем, скажем, знаки препинания).

источник

2015-09-16 Shadocko

В конце концов я понял, решение с помощью char_filter ввести дополнительные маркеры на разрывы строк и знаков препинания:

PUT /index 
{            
    "settings": { 
    "analysis": { 
     "char_filter": { 
     "my_mapping": { 
      "type": "mapping", 
      "mappings": [ ".=>\\n_PERIOD_\\n", "\\n=>\\n_NEWLINE_\\n" ] 
     } 
     }, 
     "analyzer": { 
     "my_analyzer": { 
      "tokenizer": "standard", 
      "char_filter": ["my_mapping"], 
      "filter": ["lowercase"] 
     } 
     } 
    } 
    } 
}

Тестирование с примером строки

POST /index/_analyze?analyzer=my_analyzer&pretty 
The quick brown fox runs after the rabbit. 
Then comes the jumpy frog.

дает следующий результат:

{ 
    "tokens" : [ { 
    "token" : "the", 
    "start_offset" : 0, 
    "end_offset" : 3, 
    "type" : "<ALPHANUM>", 
    "position" : 1 
    }, { 
... snip ... 
    "token" : "rabbit", 
    "start_offset" : 35, 
    "end_offset" : 41, 
    "type" : "<ALPHANUM>", 
    "position" : 8 
    }, { 
    "token" : "_period_", 
    "start_offset" : 41, 
    "end_offset" : 41, 
    "type" : "<ALPHANUM>", 
    "position" : 9 
    }, { 
    "token" : "_newline_", 
    "start_offset" : 42, 
    "end_offset" : 42, 
    "type" : "<ALPHANUM>", 
    "position" : 10 
    }, { 
    "token" : "then", 
    "start_offset" : 43, 
    "end_offset" : 47, 
    "type" : "<ALPHANUM>", 
    "position" : 11 
... snip ... 
    } ] 
}

источник

2015-09-23 13:37:37 Shadocko

разрывы строк или знаки препинания в виде разрывов позиций в elasticsearch

ответ

Смежные вопросы