I am trying to index documents (read Pdf for ex) into elastic search.
My objective is to search documents based on matching content string.
To extract the document content, I am using Apache Tika .
I am not sure how should i index the document content along with document meta-data.
Ниже приведены параметры, я могу думать:Как проиндексировать содержимое документа PDF в эластичном поиске?
Должен ли я просто добавить одно поле «содержание», имеющий тип данных, как строки и просто хранить содержимое документа в виде строки там? (Но не уверен он будет работать для документов большого размера)
или я должен сделать это поле двоичным и закодировать содержимое документа там. (Но это не будет найден)
Пожалуйста посоветуйте.
Мой вариант использования - 2-й, случайный контент. Я не знаю, что будет с конкретным файлом, но если у него есть текст, я хочу сохранить его в эластичном поиске и искать на основе этих текстов. Даже для полнотекстового поиска требуется сохранить содержимое документа в поиске эластичного изображения, и это мое беспокойство. Как сохранить содержимое документа? потому что, если я сохраню его как строку, тогда у него могут быть проблемы с большими документами. – AKS
Большие строки могут храниться с помощью Elastic, но не могут быть проиндексированы в Lucene. Хотя существует механизм автоматического интерпретации больших строк как набор коротких. Вы можете начать свое исследование здесь: http://stackoverflow.com/a/28831582/5848808 - удачи! –