Задача Spark RDD постоянно находится в состоянии RUNNING без обработки данных?

Picture：Some of the Spark RDD tasks are in RUNNING status all the time without data processing Задача Spark RDD постоянно находится в состоянии RUNNING без обработки данных?

искровой стадии читает данные из MongoDB с интерфейсом newAPIHadoopRDD, большинство задач завершена, но две задачи в БЕЖАТЬ состоянии повсюду, и CPU и памяти исполнителя в низкой занятыми. И я не думаю, что это связано с Mongodb, потому что другая работа по чтению кафки имеет аналогичное поведение. В чем проблема?

источник

2016-12-20 Wang Yanwei

Я думаю, что я нахожу причины. Я добавил статический объект-член с функцией init в одном Serializable классе A, а другой экземпляр класса Serializable класса B использует статическую функцию-член F1 вышеуказанного класса A, когда я меняю F1 на один неэриализуемый класс, проблема исчезла. Поэтому я предполагаю, что это проблема временной последовательности: при вызове F1 класс А не выполняется с сериализуемым процессом.

источник

2017-01-03 02:27:19

Задача Spark RDD постоянно находится в состоянии RUNNING без обработки данных?

ответ

Смежные вопросы