У меня есть кадр данных в ведро S3, разделенный на 8 csv файлов по 709,7 МБ каждый.Загрузите файл с S3 в узлы кластера EMR в pyspark
Я создаю кластер EMR с 8 узлами (r3.4xlarge: 16 vCPU, 122 RAM и 320 дисков).
Мои конфигурации Свечи являются:
num-executors='23'
executor-memory='34G'
executor-cores='5'
Я пишу этот питон скрипт, чтобы загрузить мой dataframe:
df = sqlContext.read.load("s3://my-bucket/my-dataframe/*",
format='com.databricks.spark.csv',
header='true',
delimiter='\t',
inferSchema='true')
Проблема: Когда я смотрю этапы Спарк истории сервера, вот результат.
3 CSV-файлы не загружаются правильно. У кого-то есть решение для решения этой проблемы или идеи причины, пожалуйста?