2017-02-08 15 views
0

Я прочитал о полнотекстовом поиске от elasticsearchdocumentation, но не смог понять алгоритм, который он использует для индексирования pdf-файлов.Что такое теория, Elasticsearch индексирует неструктурированные данные, такие как pdf-файлы?

+0

В чем ваш вопрос точно? Вы хотите знать, как эластичный магазин и поиск по PDF? – hkulekci

+0

@hkulekci Да алгоритм, используемый elasticsearch. – Ashley

ответ

2

Под капотом Elasticsearch использует библиотеку Apache Tika, которая выполняет все извлечение текста из разных типов файлов, а синтаксический анализатор PDF в Tika использует библиотеку Java PDFBox для извлечения текста из формата pdf. Итак, после некоторой магии, сделанной этой библиотекой с открытым исходным кодом, извлеченный текст индексируется как нормальный документ Elasticsearch.