В настоящее время я пытаюсь выяснить схемы анализа для моего кластера ElasticSearch. Я использую ES для индексации документов pdf, word, powerpoint и excel. Я использую Apache Tika для извлечения текста.ElasticSearch несколько языков
Моя проблема в том, что я не знаю, перед каким языком следует ожидать, что содержимое файла будет. Они могут быть написаны на любом языке.
Мой вопрос в том, есть ли способ сделать ES анализ текста независимо от языка? Или у меня есть предопределенное поле для каждого языка с его собственным токенизатором, анализатором и секундомерами?
Вы видели это? http://www.elastic.co/guide/en/elasticsearch/guide/current/language-pitfalls.html –