parquet

1зной

1ответ

Я могу успешно преобразовать CSV-файл в файл Parquet, но файл Parquet разбит на тонну файлов размером 2-3 МБ. В качестве примера CSV-25gb преобразуется в файл Parquet с более чем 700 файлами. Мои иссл

1зной

2ответ

RDD Память в искровом свете

Я не уверен в концепции печати стоп-кадра. При загрузке паркетного файла, например. 1 ГБ и создание RDD из него в Spark, что будет для печати памяти для каждого RDD?

0зной

1ответ

Максимальный размер строк в работе Spark с использованием Avro/Parquet

Я планирую использовать Spark для обработки данных, где каждый отдельный элемент/строка в RDD или DataFrame может иногда быть большим (до нескольких ГБ). Данные, вероятно, будут храниться в файлах Avr

3зной

1ответ

выбрать конкретные столбцы в Спарке DataFrames из Массива Struct