2016-04-08 4 views
1

Я запускаю CDH распространение (версия 5.6.0) с Impala (версия 2.4.0).Cloudera Impala: Файл имеет недопустимый номер версии. Это может быть связано с устаревшими метаданными

У меня есть файлы Parquet, хранящиеся в HDFS. Далее, я загрузил эти файлы во внешнюю таблицу Impala со следующим запросом:

create external table parquetTable 
like parquet 'hdfs://cloudera-impala-mn0.eastus.cloudapp.azure.com:8020/user/root/big_data/part-r-00015-66cf01ca-ffee-4a62-b2c3-c09177ec4bd7.gz.parquet' 
stored as parquet location 'hdfs://cloudera-impala-mn0.eastus.cloudapp.azure.com:8020/user/root/big_data/; 

При выполнении следующего запроса все файлы успешно перечислены:

[cloudera-impala-dn0.eastus.cloudapp.azure.com:21000] > show files in parquettable; 

Кроме того, метаданные правильно (проверено путем выполнения describe parquettable).

В статистике таблицы являются:

[cloudera-impala-dn0.eastus.cloudapp.azure.com:21000] > show table stats parquettable; 

Rows | Files | Size | Bytes Cached | Cache Replication | Format | Incremental stats | Location

-1 | 838 | 249.64GB | NOT CACHED | NOT CACHED | PARQUET | false | hdfs://cloudera-impala-mn0.eastus.cloudapp.azure.com:8020/user/root/big_data

Выполнение следующего запроса:

[cloudera-impala-dn0.eastus.cloudapp.azure.com:21000] > select count(*) from parquettable; 

результаты в следующих ПРЕДУПРЕЖДЕНИЕ, но без какого-либо выходного результата или ошибки:

File 'hdfs://cloudera-impala-mn0.eastus.cloudapp.azure.com:8020/user/root/big_data/part-r-00001-7c29b85c-bd1f-420e-8834-96300076a92d.gz.parquet' has an invalid version number: ▒.F/ This could be due to stale metadata. Try running "refresh default.parquettable".

Запуск refresh default.parquettable не имел никакого эффекта.

Любая помощь будет оценена!

+0

Можете ли вы попробовать запустить команду «invalidate metadata» в оболочке impala и повторить запрос? – Lan

+0

@Lan Я тоже пробовал, но все равно не успел. Предупреждающее сообщение остается неизменным и не выводится. –

+0

Как вы создаете паркетную таблицу? – Lan

ответ

1

Ваши шаги выглядят хорошо. Ошибка вызывает жалобы на part-r-00001-7c29b85c-bd1f-420e-8834-96300076a92d.gz.parquet, в то время как вы используете part-r-00015-66cf01ca-ffee-4a62-b2c3-c09177ec4bd7.gz.parquet при создании таблицы , Таким образом, похоже, что есть проблема в части r-00001-7c29b85c-bd1f-420e-8834-96300076a92d.gz.parquet. Можете ли вы избавиться от всех файлов в таблице big_data, кроме part-r-00015-66cf01ca-ffee-4a62-b2c3-c09177ec4bd7.gz.parquet?

 Смежные вопросы

  • Нет связанных вопросов^_^