2016-09-05 3 views
-2

Я пробовал использовать эластичный инструмент для поиска вложений, но у меня было некоторое затруднение индексирования многоязычных документов, особенно в PDF, . Есть ли рекомендованный инструмент (предпочтительный вид базы данных), чтобы сделать это вместо эластичный поиск? Мне не нужен какой-либо нечеткий или полнотекстовый поиск, просто простой «подобный», как mysql, будет лучшим.Лучший способ индексирования и поиска в документах

+0

Ваш вопрос недостаточен, чтобы дать достаточно много ответов, но я стараюсь дать некоторую информацию о ситуации. Может быть, вы можете дать больше информации. – hkulekci

ответ

0

Elasticsearch - система поиска и анализа. Ваша проблема заключается в извлечении текста из PDF. Я думаю, вы смешиваете яблоки и апельсины. Вы хотите найти этот PDF-файл и его контент. Во-первых, вы должны создать конвейер, как вы это делаете.

Например, я создам индекс для сохранения моих данных, доступных для поиска, и это мои поля. После этого я получу метаданные и исходный текст из PDF-файлов с помощью Apache Tika (я добавлю текст в файл, таблицу db, память db и т. Д.) И некоторый собственный скрипт. Затем я проиндексирую эти данные в свой индекс с идентификатором этого PDF.

Это короткий сценарий для этой проблемы.

С другой стороны, если у вас нет больших поисковых запросов или полного текста, вам может не понадобиться Elasticsearch, но вы можете использовать Elasticsearch, который может быть проще, чем другой. Кроме того, вы можете использовать агрегацию для большей аналитики и использовать параметр релевантности для получения более релевантных документов. Они так чудодействуют для поиска.

Существует также plugin для PPT, XLS, PDF, ... Этот плагин также использует Apache Tika. Но в ES 5.x вы должны изменить этот плагин на API-интерфейс ingest node. Эти плагины будут доступны в качестве прогласованного процессора в ES 5.x

+1

Привет, У Elastic Search есть плагин «привязки карт», который позволяет ему индексировать документы, сохраняя их в формате base64. – user3625518

+0

Но вы ищете в pdf-файле в этой ситуации? – hkulekci

+0

Вы берете документ PDF, конвертируете в base64, сохраняете его до эластичного по запросу, а затем можете запускать поисковый запрос внутри документов. – user3625518