Есть ли способ быстрой и стабильной записи паркетных данных на S3 с помощью scala?Запись данных паркета в файл на S3 с помощью scala
0
A
ответ
0
Да - с помощью Спарк Если у вас есть dataframe в руке вы можете использовать df.write.parquet("s3a://newfilename")
0
вы можете работать с S3A длительного времени от автономной установки, если вы хотите, хотя я бы не рекомендовал использовать его в качестве прямое назначение работы из-за проблем с производительностью. Лучше вывести локально, а затем скопировать его там (hasoop distcp делает это).
Я предполагаю, что для его работы необходимо установить искровой кластер? – bashan
в зависимости от ваших потребностей и размера данных, но вы можете начать с автономной установки –