У меня есть кластер elasticsearch, у которого есть большой объем данных. Я хочу извлечь все данные из elasticsearch в Hadoop (Hive). Я использовал драйвер Elasticsearch-Hadoop для извлечения данных из elasticsearch с помощью внешней таблицы Hive, но он слишком медленный и всегда выполняет задачу.Elasticsearch-Hadoop получить Неиндексированные данные
Моя первая проблема - получить все данные из моего существующего кластера elasticsearch. Вторая проблема заключается в дублировании всех данных, которые транслируются в elasticsearch на HDFS один раз в день или час.
Как я могу это достичь?
Заранее спасибо.
Обратитесь к elasticsearch mapreduce api для чтения данных из поиска elastics. Попытайтесь написать собственные задания MR для этого. –