2016-12-20 8 views
0

Picture:Some of the Spark RDD tasks are in RUNNING status all the time without data processingЗадача Spark RDD постоянно находится в состоянии RUNNING без обработки данных?

искровой стадии читает данные из MongoDB с интерфейсом newAPIHadoopRDD, большинство задач завершена, но две задачи в БЕЖАТЬ состоянии повсюду, и CPU и памяти исполнителя в низкой занятыми. И я не думаю, что это связано с Mongodb, потому что другая работа по чтению кафки имеет аналогичное поведение. В чем проблема?

ответ

0

Я думаю, что я нахожу причины. Я добавил статический объект-член с функцией init в одном Serializable классе A, а другой экземпляр класса Serializable класса B использует статическую функцию-член F1 вышеуказанного класса A, когда я меняю F1 на один неэриализуемый класс, проблема исчезла. Поэтому я предполагаю, что это проблема временной последовательности: при вызове F1 класс А не выполняется с сериализуемым процессом.