Я понимаю, что partitionBy
функция разделяет мои данные. Если я использую rdd.partitionBy(100)
, он разделит мои данные ключом на 100 частей. то есть данные, связанные с аналогичными ключами, будут сгруппированы вместе.pyspark partioning data using partitionby
- Правильно ли я это понимаю?
- Желательно ли иметь количество разделов, равное числу доступных ядер? Это делает обработку более эффективной?
- Что делать, если мои данные не в ключевом формате. Могу ли я использовать эту функцию?
- позволяет сказать, что мои данные являются serial_number_of_student, student_name. В этом случае я могу разбить свои данные на имя_учреждения вместо serial_number?
Вы должны проверить этот ответ, он содержит много опечаток. –