Похоже, вы, вероятно, нанесете this known issue, что несколько характерно для чтения файлов ORC. Коннектор GCS версии 1.5.4 имеет исправление и на этой неделе развернется в Dataproc (ожидается, что он будет полностью развернут к этой пятнице, 14 октября).
В то же время вы можете использовать небольшое действие инициализации для обновления версии соединителя на ваших кластерах dataproc автоматически; создать файл с именем update-gcs-1.5.4.sh
:
#!/bin/bash
rm -f /usr/lib/hadoop/lib/gcs-connector*.jar
gsutil cp gs://hadoop-lib/gcs/gcs-connector-1.5.4-hadoop2.jar /usr/lib/hadoop/lib/
А затем загрузить этот файл в ГКС где:
gsutil cp update-gcs-1.5.4.sh gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh
Затем создайте Dataproc кластер:
gcloud dataproc clusters create \
--initialization-actions gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh