Я пишу паркетный файл от DataFrame до S3. Когда я смотрю на пользовательский интерфейс Spark, я вижу все задачи, но 1 быстро завершен на этапе написания (например, 199/200). Эта последняя задача, по-видимому, длится бесконечно, и очень часто она терпит неудачу из-за превышения предела памяти исполнителя.Spark write Parquet to S3 последняя задача берет навсегда
Я хотел бы знать, что происходит в этой последней задаче. Как его оптимизировать? Спасибо.
Я замечаю, что этот последний исполнитель заданий имеет гораздо больше тасовки, которые сравниваются с другими выполненными исполнителями. Означает ли это, что разбиение не является оптимальным? Как этого избежать? – user2680514
Я использую Spark 1.3.1 – user2680514
Чтобы определить, является ли перекос данных проблемой, нам нужна дополнительная информация о размере этого последнего файла и других. Учитывая то, что вы сказали об ошибках OOM, я думаю, что проблема с искажениями данных. Без какого-либо кода будет сложно помочь ни в чем, кроме попытки попробовать эту попытку. – BAR