Я пытаюсь запустить скрипт, используя искровой представить, как этоДлинные работает искра отправить задание
spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar
Этот скрипт реализует алгоритм Dimsum на 60К записей.
К сожалению, это продолжается даже после 3-х часов. Я устал от 1K данных и успешно работает в течение 2 минут.
Может ли кто-нибудь порекомендовать какие-либо изменения в параметрах spark-submit, чтобы сделать их быстрее?
Проверить диаграммы Спарк Web UI , может быть, у вас плохой параллелизм - тогда «передел» поможет –