Мы написали код для соединения и привязки наборов данных через GraphX, написанный на Scala, используя Spark 1.6.1 и Scala 2.10.Искра-оболочка Spark GraphX против искр-представления производительности
Если мы запустим этот код в искровой оболочке, он будет завершен в 30 минут с 10 исполнителями, 10 г памяти & 5 штук за исполнителя.
Если мы запустим это в жирной банке с искрообразованием, тогда процесс выпадает из-за ошибок памяти и занимает полтора часа, чтобы добраться до этой точки.
Есть ли у кого-нибудь идеи, что может быть причиной этого?
Кто-нибудь знает, как настроены SparkContext и SQLContext в оболочке, и если мы упустили что-то в настройке собственных Контекстов, которые могут вызвать проблему с запуском spark-submit так плохо?
Мы проверили параметры, которые они идентичны, и даже если мы предоставим искру, укажите больше ресурсов, чем оболочка, которая по-прежнему сталкивается с проблемами. Кроме того, если данные были искажены, они должны воздействовать на оболочку и отправлять таким же образом? –
@AndyLong Не могли бы вы проверить значения параметров в Spark Web UI? –
Возможно, некоторые настройки переопределены, поэтому я хочу проверить информацию из веб-интерфейса –