Я реализую небольшой кластер для кластеров для POC в моей компании. Я пытаюсь импортировать файлы в HDFS с Flume. Каждый файл содержит JSON объекты, как это («длинный» линии 1 на файл):Перемещение файлов из каталога буферизации в HDFS с помощью флюма
{ "objectType" : [ { JSON Object } , { JSON Object }, ... ] }
«OBJECTTYPE» тип объектов в массиве (например: события, пользователи, ...).
Эти файлы будут обработаны позже несколькими задачами в зависимости от объекта «objectType».
Я использую источник spoolDir и раковину HDFS.
Мои вопросы:
Можно ли сохранить имя исходного файла при желобе записи в HDFS (имена файлов являются уникальными, поскольку они содержат метку времени и UUID в названии)
Is есть способ установить «deserializer.maxLineLength» на неограниченное значение (вместо установки большого значения)?
Я действительно не хочу потерять данные. Какой канал является лучшим, JDBC или File? (Я не поток с высокой пропускной способностью)
Мое ограничение в том, что я должен использовать желоб вне коробки (без пользовательских элементов) как можно больше.
Благодарим за помощь!