ES-Hadoop ближе к разъему между экосистемой Hadoop и ES. Это не отдельный выпуск ES.
В основном это улучшает интеграцию между экосистемным приложением Hadoop и ES. В моих организациях мы используем эту функцию для 2 целей:
Перед индексирования данных в ES, мы используем искру для анализа данных и выполнять соответствующую агрегацию, чтобы уменьшить количество индексации, которая должна быть выполнена на ES. ES-Hadoop помогает нам индексировать непосредственно из структур данных Spark в ES. Мы начинаем процесс индексирования с помощью одной строки кода и не нужно сами писать программу индексирования. (Функция настраивается, и у вас есть возможность индексировать данные, как вам нравится).
В нашей организации мы используем ES как наш ближайший аналитический кластер в реальном времени. Данные в ES размещены таким образом, чтобы обеспечить лучшую производительность для наших клиентов. Иногда (обычно, когда у нас есть идеи о некоторых новых функциях), мы должны получить данные от ES и выполнить сложную обработку данных. В этих случаях мы можем создать структуру данных Spark из данных ES в одной строке кода.
Таким образом, ES-Hadoop ближе к хорошо написанному разъему. Вам все равно придется переносить данные из вашего ES-кластера в Hadoop.
Я не уверен в сравнении с HBase. Вы не можете сравнить функции HBase, которые являются хранилищем ключевых значений по сравнению с ES, который является поисковой системой общего назначения +, реализованы очень хорошие возможности аналитики в последние версии. Как я вижу, мы имеем дело с различными инструментами, которые обращаются к различным проблемам.
Привет, Мы планируем использовать ES-Hadoop. У меня есть сомнения, что я должен хранить свои данные в HBase, например, вставлять вызовы и индексировать их в ES. –
Отличное объяснение, спасибо. Не могли бы вы поделиться и с приведенным ниже кодом («Мы начинаем процесс индексирования с помощью одной строки кода»)? – Hako