Я прочитал о полнотекстовом поиске от elasticsearch
documentation, но не смог понять алгоритм, который он использует для индексирования pdf-файлов.Что такое теория, Elasticsearch индексирует неструктурированные данные, такие как pdf-файлы?
0
A
ответ
2
Под капотом Elasticsearch использует библиотеку Apache Tika, которая выполняет все извлечение текста из разных типов файлов, а синтаксический анализатор PDF в Tika использует библиотеку Java PDFBox для извлечения текста из формата pdf. Итак, после некоторой магии, сделанной этой библиотекой с открытым исходным кодом, извлеченный текст индексируется как нормальный документ Elasticsearch.
В чем ваш вопрос точно? Вы хотите знать, как эластичный магазин и поиск по PDF? – hkulekci
@hkulekci Да алгоритм, используемый elasticsearch. – Ashley