Мне не нужен Hive или Pig, а Amazon Data Pipeline по умолчанию устанавливает их на любой кластер EMR, который он закручивает. Это делает тестирование более продолжительным, чем нужно. Любые идеи о том, как отключить установку?Как остановить установку улья/свиньи в трубопроводе данных Amazon?
ответ
Это невозможно на сегодняшний день.
Единственным обходным решением является запуск небольшого кластера EMR, который вы используете для тестирования (например, с одним мастером - m1.small). Затем используйте его с «рабочей группой», а не «runOn».
В зависимости от типа действий, которые вы хотите использовать, поле рабочей группы может поддерживаться или не поддерживаться. Но вы всегда можете обернуть все в скрипте (python, shell или blah) и использовать его с помощью ShellCommandActivity.
Update (правильно напомнил ChristopherB):
От 3.x AMI версии, Hive и Pig поставляется в самой AMI. Таким образом, шаги не вытаскивают новые пакеты из S3, а только активируют демоны на главном узле. Поэтому, если вы не беспокоитесь о том, что они потребляют ресурсы вашего экземпляра (процессор, память и т. Д.), Все должно быть в порядке. Они не позаботились, чтобы бежать.
Для EMR AMI 3.x и более поздних этапов добавления этих результатов не происходит, поскольку с помощью этих AMI программное обеспечение уже предварительно загружено для Pig and Hive. – ChristopherB