2015-03-27 6 views
0

В настоящее время я пытаюсь выяснить схемы анализа для моего кластера ElasticSearch. Я использую ES для индексации документов pdf, word, powerpoint и excel. Я использую Apache Tika для извлечения текста.ElasticSearch несколько языков

Моя проблема в том, что я не знаю, перед каким языком следует ожидать, что содержимое файла будет. Они могут быть написаны на любом языке.

Мой вопрос в том, есть ли способ сделать ES анализ текста независимо от языка? Или у меня есть предопределенное поле для каждого языка с его собственным токенизатором, анализатором и секундомерами?

+2

Вы видели это? http://www.elastic.co/guide/en/elasticsearch/guide/current/language-pitfalls.html –

ответ

1

Предлагаю взглянуть на плагин ElasticSearch elasticsearch-mapper-attachments. Я использовал его для создания функций поиска документов.

Когда речь заходит о поддержке нескольких языков, у нас был лучший опыт работы с одним индексом на язык. Если вы можете идентифицировать язык перед индексированием, вы можете вставить документ в соответствующий индекс. Это упрощает добавление новых языков в зависимости от поля на языковой подход.

Замечание Don't use Types for Languages в нижней части одного языка на странице документа. Это может испортить поиск в очень сложном для отладки пути.

Если вам нужно определить язык, в нижней части страницы «Ошибки страницы смешивания» есть два параметра.

+0

Будет проверять плагин подключаемых карт, хотя я сомневаюсь, что буду использовать его. К сожалению, я не могу идти с индексом на языковой подход, поскольку у меня уже есть индекс для каждой пользовательской структуры. Вероятно, у меня будет поле для каждого языка. –