1

У меня есть кластер elasticsearch, у которого есть большой объем данных. Я хочу извлечь все данные из elasticsearch в Hadoop (Hive). Я использовал драйвер Elasticsearch-Hadoop для извлечения данных из elasticsearch с помощью внешней таблицы Hive, но он слишком медленный и всегда выполняет задачу.Elasticsearch-Hadoop получить Неиндексированные данные

Моя первая проблема - получить все данные из моего существующего кластера elasticsearch. Вторая проблема заключается в дублировании всех данных, которые транслируются в elasticsearch на HDFS один раз в день или час.

Как я могу это достичь?

Заранее спасибо.

ответ

0

Вы можете использовать систему hadoop как склад для хранения данных, из которых вы можете нажать данные на elasticsearch. & наоборот. Попробуйте использовать elasticsearch только для данных, которые вы хотите сделать для анализа на настоящем, удалите остальную часть данных из elasticsearch. Поэтому каждый раз, когда вы хотите сделать анализ в разных аспектах, потяните эти данные из hadoop &.

+0

Обратитесь к elasticsearch mapreduce api для чтения данных из поиска elastics. Попытайтесь написать собственные задания MR для этого. –