Что такое теория, Elasticsearch индексирует неструктурированные данные, такие как pdf-файлы?

Я прочитал о полнотекстовом поиске от elasticsearchdocumentation, но не смог понять алгоритм, который он использует для индексирования pdf-файлов.Что такое теория, Elasticsearch индексирует неструктурированные данные, такие как pdf-файлы?

источник

2017-02-08 Ashley

В чем ваш вопрос точно? Вы хотите знать, как эластичный магазин и поиск по PDF? – hkulekci

@hkulekci Да алгоритм, используемый elasticsearch. – Ashley

Под капотом Elasticsearch использует библиотеку Apache Tika, которая выполняет все извлечение текста из разных типов файлов, а синтаксический анализатор PDF в Tika использует библиотеку Java PDFBox для извлечения текста из формата pdf. Итак, после некоторой магии, сделанной этой библиотекой с открытым исходным кодом, извлеченный текст индексируется как нормальный документ Elasticsearch.

источник

2017-02-09 07:37:23 Mysterion

Что такое теория, Elasticsearch индексирует неструктурированные данные, такие как pdf-файлы?

ответ

Смежные вопросы