Я могу разобрать json-файл в elasticsaerch. есть все равно, чтобы разобрать/индексировать Microsoft Outlook Outlook PST-файлы в индексы Elasticsearch?Как я могу проанализировать файл PST для поиска в elasticsearch?
спасибо
Я могу разобрать json-файл в elasticsaerch. есть все равно, чтобы разобрать/индексировать Microsoft Outlook Outlook PST-файлы в индексы Elasticsearch?Как я могу проанализировать файл PST для поиска в elasticsearch?
спасибо
Вы можете использовать плагин ElasticSearch "глотает крепления", который использует Тик для обработки туземцев (PDF, XLS, PST, и т.д ...):
https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html
плагин «Оцифровка Attachment» является ранее называвшимся «Mapper-вложение» плагин, так что вы можете найти помощь с ключевыми словами из старого названия:
https://www.elastic.co/guide/en/elasticsearch/plugins/current/mapper-attachments.html
Эти плагины позволяют передавать базовую кодировку PST непосредственно в ElasticSearch, а ES будет автоматически анализировать и индексировать данные за сценой.
Если вы хотите что-то индивидуальное, я предлагаю использовать один из многих проектов github, которые читают файлы PST, а затем отправляют данные в ElasticSearch в любое требуемое сопоставление документов. Есть много проектов для чтения в формате github PST, поэтому выберите популярный для любого языка, который вам больше всего нравится (java, C# и т. Д.). Github предложил условия поиска: libpst, pst reader
Вы также можете написать собственный парсер для Apache Tika и использовать его вместо библиотеки чтения PST. Документация о том, как использовать его можно найти здесь:
https://tika.apache.org/1.6/parser.html
Java пример base64 кодирования файла в строку:
FileInputStream fileInputStreamReader = new FileInputStream(file);
byte[] bytes = new byte[(int)file.length()];
fileInputStreamReader.read(bytes);
String encodedfile = Base64.encodeBase64(bytes).toString();
Пропустите полученную строку encodedfile к PUT вызова, как показано в данной статье :
https://www.elastic.co/guide/en/elasticsearch/plugins/current/using-ingest-attachment.html
спасибо дорогой @erik у меня есть некоторые вопросы: как я могу определить, если мой файл base64? как использовать этот плагин? Теперь я установил это, но я не знаю, как его использовать? Я очень новичок в эластичности. Я могу загрузить json-файл и запросить его в эластичном состоянии, но я не знаю, как это действие для pst-файла? –
Файлы кодировки Base64 в java можно найти здесь: http://stackoverflow.com/questions/13109588/base64-encoding-in-java Вот несколько примеров загрузки данных с помощью PUT-вызовов в плагин Ingest: https: // www .elastic.co/guide/en/elasticsearch/plugins/master/using-ingest-attachment.html – Erik
Эрик Я думаю, что есть ошибка. Я не хочу кодировать мой файл, я просто хочу определить, является ли он base64 или нет. также вторая ссылка, которую я уже читал, но она не покрывает информацию о загрузке из файла в индекс, –