Я получаю эту ошибку Container exited with a non-zero exit code 137
во время работы искры на пряжу. Я пробовал пару методов после прохождения, но не помог. Конфигурации искры выглядят следующим образом:EMR 5.x | Свеча на пряжу | Код выхода 137 и пустое пространство Java Ошибка
spark.driver.memory 10G
spark.driver.maxResultSize 2G
spark.memory.fraction 0.8
Я использую пряжу в клиентском режиме. spark-submit --packages com.databricks:spark-redshift_2.10:0.5.0 --jars RedshiftJDBC4-1.2.1.1001.jar elevatedailyjob.py > log5.out 2>&1 &
Пример кода:
# Load the file (its a single file of 3.2GB)
de_pulse_ip = spark.read.csv('s3://aiqdatabucket/aiq-inputfiles/de_pulse_ip/latest/de_pulse_additional.txt.gz', schema=ipAadditionalPulseSchema, sep=';', header=True)
# write the de_pulse_ip data into parquet format
de_pulse_ip = de_pulse_ip.select("ip_start","ip_end","country_code","region_code","city_code","ip_start_int","ip_end_int","postal_code").repartition(50)
de_pulse_ip.write.parquet("s3://analyst-adhoc/elevate/tempData/de_pulse_ip1.parquet", mode = "overwrite")
# read de_pulse_ip data intp dataframe from parquet files
de_pulse_ip = spark.read.parquet("s3://analyst-adhoc/elevate/tempData/de_pulse_ip1.parquet").repartition("ip_start_int","ip_end_int")
#join with another dataset 200 MB
brandsurvey_feed = de_pulse_ip.join(vdna_bs_feed_ip_int, [vdna_bs_feed_ip_int.ip_int_cast > de_pulse_ip.ip_start_int,vdna_bs_feed_ip_int.ip_int_cast <= de_pulse_ip.ip_end_int], how='right')
Примечание: входной файл представляет собой один файл GZIP. Он распакован размером 3,2 ГБ
Сколько у вас исполнителей? сколько RAM вы выделили для каждого исполнителя? Каков размер распакованного входного файла? – Yaron
распакованный файл - 3,2 ГБ. для выделения ОЗУ я пробовал несколько вариантов 1. Я не делал никакой памяти и просто использовал значение по умолчанию 2. Затем я использовал 6 ГБ для каждого исполнителя, но он все еще не работает. – braj259
Сколько вы использовали с 6 ГБ оперативной памяти? – Yaron