Я планирую использовать Spark для обработки данных, где каждый отдельный элемент/строка в RDD или DataFrame может иногда быть большим (до нескольких ГБ).Максимальный размер строк в работе Spark с использованием Avro/Parquet
Данные, вероятно, будут храниться в файлах Avro в HDFS.
Очевидно, что каждый исполнитель должен иметь достаточное количество ОЗУ для хранения одной из этих «жирных строк» в памяти, а некоторые - для экономии.
Но существуют ли другие ограничения на размер строки для Spark/HDFS или для обычных форматов сериализации (Avro, Parquet, Sequence File ...)? Например, могут ли отдельные записи/строки в этих форматах быть намного больше, чем размер блока HDFS?
Я знаю, опубликованных ограничений для HBase и Кассандрой, но не Спарк ...