У меня есть EC2
с r3.8xlarge (32 cores, 244G RAM)
.Spark: master local [*] намного медленнее, чем мастер локальный
В моем Spark
приложения, я читаю два CSV-файлы из S3
с помощью Spark-CSV
из DataBrick, каждый из CSV имеет около 5 миллионов строк. Я представляю unionAll
два DataFrames и запускаю dropDuplicates
на комбинированном DataFrame.
Но когда у меня есть,
val conf = new SparkConf()
.setMaster("local[32]")
.setAppName("Raw Ingestion On Apache Spark")
.set("spark.sql.shuffle.partitions", "32")
Спарк медленнее, чем .setMaster("local")
Не было бы быстрее, с 32 ядрами?