В моей компании мы объединили очень разнородный кластер YARN + Spark, используя комбинацию старых и новых машин. Поскольку статистика отдельных машин сильно варьируется, я хотел бы иметь возможность запускать несколько исполнителей на больших машинах. Установка --num-executors
выше, чем количество машин в кластере, не работает. Есть ли какая-то другая настройка, которую мне нужно изменить, чтобы включить это, или это просто невозможно?Несколько исполнителей на одного работника, используя YARN и Spark?
2
A
ответ
0
Передайте опцию --executor-core. Это должно быть ~ 4 для хорошей производительности: http://www.datarpm.com/resources/achieving-optimal-performance-with-apache-spark1-5/
Это будет крутить одного исполнителя на 4-ядерном компьютере и 4 исполнителя - 16-ядерную машину.
Я не думаю, что это правда. Я устанавливаю «-executor-core» на 2 из-за ограничений памяти, и я все еще получаю только один исполнитель на всех машинах, включая тот, у которого есть 32 ядра. – job
Можете ли вы опубликовать свою свечу в своем вопросе? Это поможет нам отладить. – Tim