0

Я прочитал, возможно, Stackoverflow, что проекты es-hadoop/es-spark используют объемную индексацию. Если это так, то пакет Batchsize по умолчанию соответствует BulkProcessor (5Mb). Есть ли какая-либо конфигурация, чтобы изменить это.Elasticsearch hadoop настроить объемный размер партии

В моем коде используется JavaEsSparkSQL.saveToEs(dataset,index), и я хочу знать, какие доступные конфигурации можно настроить для настройки производительности. Связано это также с разбиением набора данных.

ответ

0

Найдено настройки на своей странице конфигурации

es.batch.size.bytes (default 1mb) 

Размер (в байтах) для партии пишет, используя Elasticsearch насыпной API. Обратите внимание, что размер массива выделяется для каждого экземпляра задачи. Всегда умножайте количество задач в задаче Hadoop, чтобы получить общий объемный объем во время выполнения, ударяя Elasticsearch.

Размер (в записях) для пакетной записи с использованием API-интерфейса Elasticsearch - (0 отключает его). Companion to es.batch.size.bytes, по одному совпадению, выполняется пакетное обновление. Подобно размеру, этот параметр относится к экземпляру задачи; он умножается во время выполнения на общее количество запущенных задач Hadoop.