1

Я пытаюсь обновить файл .tmp дополнительными событиями каждые 5 минут, мой источник медленный, и для получения файла размером 128 МБ в мой приемник hdfs требуется 30 минут.Flome-ng hdfs sink .tmp file refresh rate control proprty

Есть ли какое-либо свойство в потоке hdfs flume, где я могу контролировать частоту обновления файла .tmp до того, как файл перевернут в HDFS.

Мне нужно это, чтобы увидеть данные в HDFS, используя таблицу hive из файла .tmp.

В настоящее время я просматриваю данные из файла .tmp с использованием таблицы hive, но файл .tmp не освежает в течение длительного времени, так как размер рулона составляет 128 МБ.

ответ

0

Рассмотрим уменьшения параметров емкости и transactionCapacity своего канала:

capacity 100 The maximum number of events stored in the channel 
transactionCapacity 100 The maximum number of events the channel will take from a source or give to a sink per transaction 

Эти параметры отвечают за контроль, сколько событий получают наматывается, прежде чем они будут сброшены в раковину. Если вы уменьшите это до 10, например, каждые 10 событий будут сброшены в ваш tmp-файл.

Второе значение, которое необходимо изменить BATCHSIZE в ваших HDFS тонуть:

hdfs.batchSize 100 number of events written to file before it is flushed to HDFS 

Значение по умолчанию 100, вероятно, будет слишком высока, если у вас есть очень медленный источник, и вы хотите видеть события более довольно часто.

 Смежные вопросы

  • Нет связанных вопросов^_^