2015-04-23 1 views
3

В настоящее время мы используем Luigi, MRJob и другие фреймворки для запуска потоковых работ Hadoo с использованием Python. Мы уже можем отправлять задания со своим виртуальным пользователем, поэтому в узлах не установлены конкретные зависимости Python (see the article). Мне было интересно, сделал ли кто-то подобное с менеджером Anaconda/Conda Package.Можно ли использовать среду Conda как «virtualenv» для Hadoop Streaming Job (в Python)?

PD. Я также знаю Conda-Cluster, однако это выглядит как более сложное/сложное решение (и оно находится за платной линией).

ответ

1

Я не знаю способа упаковки среды conda в tar/zip, а затем распакуйте ее в другой коробке и подготовьте ее к использованию, как в примере, который вы упомянули, что может быть невозможно. По крайней мере, без Anaconda во всех рабочих узлах могут возникать проблемы, перемещающиеся между различными ОС.

Anaconda Cluster был создан для решения этой проблемы (отказ от ответственности: я разработчик Clacer Anaconda), но он использует более сложный подход, в основном мы используем систему управления конфигурацией (соль) для установки anaconda во всех узлах в кластера и управления средами конда.

Мы используем систему управления конфигурацией, потому что мы также развертываем стек hadoop (искру и его друзей), и нам нужно нацеливать большие кластеры, но на самом деле, если вам нужно только развернуть anaconda и не иметь много узлов, вы должны быть (что Anaconda Cluster также использует в некоторых частях) и запускает его на обычном ноутбуке.

Если вы заинтересованы в документах кластера Anaconda, то здесь: http://continuumio.github.io/conda-cluster/

 Смежные вопросы

  • Нет связанных вопросов^_^