К сожалению, запуск изображение Dataproc было без поддержки Snappy. Я открыл ошибку, чтобы зафиксировать это для следующего изображения.
Обходной:
Сначала нужно создать небольшой скрипт, который правильно устанавливает мгновенным и встроенную поддержку библиотеки для него. Для этого мы будем использовать те же собственные библиотеки bdutil. Я назвал мой сценарий setup-snappy.sh
:
#!/bin/bash
pushd "$(mktemp -d)"
apt-get install -q -y libsnappy1
wget https://storage.googleapis.com/hadoop-native-dist/Hadoop_2.7.1-Linux-amd64-64.tar.gz
tar zxvf Hadoop_2.7.1-Linux-amd64-64.tar.gz -C /usr/lib/hadoop/
Скопируйте новый сценарий оболочки в ведро ГКС у вас есть. Для демонстрационных целей, давайте предположим, что ведро dataproc-actions
:
gsutil cp ./setup-snappy.sh gs://dataproc-actions/setup-snappy.sh
При запуске кластера, укажите действия инициализации:
gcloud beta dataproc clusters create --initialization-actions gs://dataproc-actions/setup-snappy.sh mycluster
Благодаря Ангус, я могу подтвердить, что это работает для нас! Кстати, у вашей последней команды есть небольшая опечатка, она должна быть «gcloud beta dataproc clusters create --initialization-actions» gs: //dataproc-actions/setup-snappy.sh mycluster' – aeneaswiener
Спасибо, что указали это. Обновлена команда. –