2016-10-13 13 views
0

Исключение:Hive выберите запрос потерпел неудачу на ORC таблице

Failed исключением java.io.IOException: java.io.IOException: Как-то чтения -1 байт пытается пропустить больше 6257 байт стремиться позиционировать 6708, размер: 1290047

Есть ли у кого-нибудь представление о том, как исправить это на облачном dataproc?

ответ

1

Похоже, вы, вероятно, нанесете this known issue, что несколько характерно для чтения файлов ORC. Коннектор GCS версии 1.5.4 имеет исправление и на этой неделе развернется в Dataproc (ожидается, что он будет полностью развернут к этой пятнице, 14 октября).

В то же время вы можете использовать небольшое действие инициализации для обновления версии соединителя на ваших кластерах dataproc автоматически; создать файл с именем update-gcs-1.5.4.sh:

#!/bin/bash 
rm -f /usr/lib/hadoop/lib/gcs-connector*.jar 
gsutil cp gs://hadoop-lib/gcs/gcs-connector-1.5.4-hadoop2.jar /usr/lib/hadoop/lib/ 

А затем загрузить этот файл в ГКС где:

gsutil cp update-gcs-1.5.4.sh gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh 

Затем создайте Dataproc кластер:

gcloud dataproc clusters create \ 
    --initialization-actions gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh