2017-02-01 11 views
0

Я пытаюсь запустить скрипт, используя искровой представить, как этоДлинные работает искра отправить задание

spark-submit -v \ 
--master yarn \ 
--num-executors 80 \ 
--driver-memory 10g \ 
--executor-memory 10g \ 
--executor-cores 5 \ 
--class cosineSimillarity jobs-1.0.jar 

Этот скрипт реализует алгоритм Dimsum на 60К записей.

ссылка: https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

К сожалению, это продолжается даже после 3-х часов. Я устал от 1K данных и успешно работает в течение 2 минут.

Может ли кто-нибудь порекомендовать какие-либо изменения в параметрах spark-submit, чтобы сделать их быстрее?

+1

Проверить диаграммы Спарк Web UI , может быть, у вас плохой параллелизм - тогда «передел» поможет –

ответ

0

Ваша инструкция по искрообразованию предполагает, что у вас есть как минимум 80 * 50 = 400 ядер, не так ли?

Это означает, что вы должны убедиться, что у вас есть не менее 400 разделов, чтобы убедиться, что все ваши ядра работают (то есть каждое ядро ​​имеет как минимум 1 задачу для обработки).

Глядя на код, который вы используете, я думаю, вы должны указать количество разделов при чтении текстового файла в sc.textFile(), AFAIK это по умолчанию 2 (см defaultMinPartitions в SparkContext.scala)

 Смежные вопросы

  • Нет связанных вопросов^_^