ElasticSearch несколько языков

В настоящее время я пытаюсь выяснить схемы анализа для моего кластера ElasticSearch. Я использую ES для индексации документов pdf, word, powerpoint и excel. Я использую Apache Tika для извлечения текста.ElasticSearch несколько языков

Моя проблема в том, что я не знаю, перед каким языком следует ожидать, что содержимое файла будет. Они могут быть написаны на любом языке.

Мой вопрос в том, есть ли способ сделать ES анализ текста независимо от языка? Или у меня есть предопределенное поле для каждого языка с его собственным токенизатором, анализатором и секундомерами?

источник

2015-03-27 Zaid Amir

Вы видели это? http://www.elastic.co/guide/en/elasticsearch/guide/current/language-pitfalls.html –

Предлагаю взглянуть на плагин ElasticSearch elasticsearch-mapper-attachments. Я использовал его для создания функций поиска документов.

Когда речь заходит о поддержке нескольких языков, у нас был лучший опыт работы с одним индексом на язык. Если вы можете идентифицировать язык перед индексированием, вы можете вставить документ в соответствующий индекс. Это упрощает добавление новых языков в зависимости от поля на языковой подход.

Замечание Don't use Types for Languages в нижней части одного языка на странице документа. Это может испортить поиск в очень сложном для отладки пути.

Если вам нужно определить язык, в нижней части страницы «Ошибки страницы смешивания» есть два параметра.

источник

2015-03-27 20:11:19 rclement

Будет проверять плагин подключаемых карт, хотя я сомневаюсь, что буду использовать его. К сожалению, я не могу идти с индексом на языковой подход, поскольку у меня уже есть индекс для каждой пользовательской структуры. Вероятно, у меня будет поле для каждого языка. –

ответ

Смежные вопросы