Процесс и инструменты для ввода данных csv из внешнего источника в HDFS и сохранения их в определенном формате хорошо известны; однако, как до конвертировать форматы данных для данных, УЖЕ СУЩЕСТВУЮЩИХ в HDFS?Перенос данных в новый формат данных для данных, уже находящихся в HDFS
Я работаю с существующим набором данных (~ multi TB) на HDFS в формате Json/несжатым. Как преобразовать эти данные в кластер, скажем, Паркет, в том же кластере, минимизируя ресурсы кластера?
Варианты:
- Временно получить другой кластер такого же размера, и переместить все данные по в процессе преобразования, а затем перейти обратно данные?
- Дополнить дополнительные узлы на существующем кластере временно? Как обеспечить, чтобы они использовались только для этой миграции?
- ??
Спасибо,
Matt
спасибо, но это не вопрос .. (я буду редактировать). Я знаю, как его кодировать - проблема заключается в том, чтобы выполнить эту задачу на * существующих * данных уже в кластере (~ 4 ТБ). Это больше проблема с Dev Ops. –