2016-10-26 10 views

ответ

8

Да

Самый большой Dask.distributed кластер я видел около одной тысячи узлов. Теоретически мы могли бы пойти больше, но не на огромную сумму.

Текущий предел заключается в том, что планировщик берет на себя расходы на 200 микросекунд на одну задачу. Это означает около 5000 задач в секунду. Если каждая из ваших задач занимает около одной секунды, тогда планировщик может насытить около 5000 ядер.

Исторически мы столкнулись с другими ограничениями, такими как открытые дескрипторы дескрипторов файлов и т. Д. Все они были очищены до масштаба, который мы видели (1000 узлов), и вообще все хорошо в Linux или OSX. Планировщики Dask на Windows останавливают масштабирование в низких сотнях узлов (хотя вы можете использовать планировщик Linux с рабочими Windows). Я не удивлюсь, если появятся другие проблемы, поскольку мы масштабируем до 10 тыс. Узлов.

Короче говоря, вы, вероятно, не хотите использовать Dask для замены рабочих нагрузок MPI на вашем мегаядерном суперкомпьютере Big Iron Super или в Google Scale. В противном случае вы, наверное, все в порядке.

+0

«Dask * on Windows * останавливает масштабирование в низких сотнях узлов» :( – user2864740

+4

Вы можете использовать планировщик Linux с рабочими Windows. Если вы можете запустить виртуальную машину на одной из ваших машин Windows, тогда вы будете в порядке в тысячи. – MRocklin