У меня есть данные JSON, которые я читаю в фрейме данных с несколькими полями, переделя его на основе двух столбцов и преобразовывая в Pandas.Pyspark simple re-partition и toPandas() не удается завершить только на 600 000 + строк
Эта работа не срабатывает при EMR на 600 000 строк данных с некоторыми неясными ошибками. Я также увеличил настройки памяти искрового драйвера и до сих пор не вижу никакого разрешения.
Вот мой pyspark код:
enhDataDf = (
sqlContext
.read.json(sys.argv[1])
)
enhDataDf = (
enhDataDf
.repartition('column1', 'column2')
.toPandas()
)
enhDataDf = sqlContext.createDataFrame(enhDataDf)
enhDataDf = (
enhDataDf
.toJSON()
.saveAsTextFile(sys.argv[2])
)
Мои настройки искры следующим образом:
conf = SparkConf().setAppName('myapp1')
conf.set('spark.yarn.executor.memoryOverhead', 8192)
conf.set('spark.executor.memory', 8192)
conf.set('spark.driver.memory', 8192)
sc = SparkContext(conf=conf)
Ошибки я получаю:
16/10/01 19:57:56 ERROR executor.CoarseGrainedExecutorBackend: Driver 172.31.58.76:37973 disassociated! Shutting down.
16/10/01 19:57:11 ERROR executor.CoarseGrainedExecutorBackend: Driver 172.31.58.76:42167 disassociated! Shutting down.
16/10/01 19:57:56 ERROR executor.CoarseGrainedExecutorBackend: Driver 172.31.58.76:37973 disassociated! Shutting down.
log4j:ERROR Could not read configuration file from URL [file:/etc/spark/conf/log4j.properties].
log4j:ERROR Ignoring configuration file [file:/etc/spark/conf/log4j.properties].
16/10/01 19:57:11 ERROR ApplicationMaster: RECEIVED SIGNAL 15: SIGTERM
16/10/01 19:57:11 ERROR ApplicationMaster: User application exited with status 143
log4j:ERROR Could not read configuration file from URL [file:/etc/spark/conf/log4j.properties].
log4j:ERROR Ignoring configuration file [file:/etc/spark/conf/log4j.properties].
16/10/01 19:57:56 ERROR ApplicationMaster: RECEIVED SIGNAL 15: SIGTERM
16/10/01 19:57:56 ERROR ApplicationMaster: User application exited with status 143
16/10/01 19:57:11 ERROR executor.CoarseGrainedExecutorBackend: Driver 172.31.58.76:42167 disassociated! Shutting down.
16/10/01 19:57:56 ERROR executor.CoarseGrainedExecutorBackend: Driver 172.31.58.76:37973 disassociated! Shutting down.
код отлично работает на вверх до примерно 600 000 линий JSON - даже если имеется тонна памяти. Затем он продолжает терпеть неудачу.
Любые мысли о том, что происходит и как отлаживать/исправлять эту проблему?
Это все еще не помогает. Продолжайте получать сбои с одинаковыми сообщениями об ошибках. Я буквально бегу на M4.2x больших экземплярах с 32 ГБ памяти и настройками выше. Очень раздражает то, что он просто дает эти загадочные ошибки и не дает слепой складки. – Gopala
Хм, я не вижу даже вымного от вас @Gopala, так что это значит, что мой ответ плох, я должен его удалить? – gsamaras
Я не думаю, что ответ плох. У него есть некоторые идеи и полезные ссылки. Просто это не решило мою проблему, и я все еще жду, чтобы увидеть, есть ли дополнительная помощь. – Gopala