В настоящее время мы используем Luigi, MRJob и другие фреймворки для запуска потоковых работ Hadoo с использованием Python. Мы уже можем отправлять задания со своим виртуальным пользователем, поэтому в узлах не установлены конкретные зависимости Python (see the article). Мне было интересно, сделал ли кто-то подобное с менеджером Anaconda/Conda Package.Можно ли использовать среду Conda как «virtualenv» для Hadoop Streaming Job (в Python)?
PD. Я также знаю Conda-Cluster, однако это выглядит как более сложное/сложное решение (и оно находится за платной линией).