Запись данных паркета в файл на S3 с помощью scala

Есть ли способ быстрой и стабильной записи паркетных данных на S3 с помощью scala?Запись данных паркета в файл на S3 с помощью scala

источник

2017-02-17 bashan

Да - с помощью Спарк Если у вас есть dataframe в руке вы можете использовать df.write.parquet("s3a://newfilename")

источник

2017-02-17 08:06:44

Я предполагаю, что для его работы необходимо установить искровой кластер? – bashan

в зависимости от ваших потребностей и размера данных, но вы можете начать с автономной установки –

вы можете работать с S3A длительного времени от автономной установки, если вы хотите, хотя я бы не рекомендовал использовать его в качестве прямое назначение работы из-за проблем с производительностью. Лучше вывести локально, а затем скопировать его там (hasoop distcp делает это).

источник

2017-02-18 15:06:50

Запись данных паркета в файл на S3 с помощью scala

ответ

Смежные вопросы