Amazon Athena Log Analysis Services с S3 леднике
Мы имеем петабайт данных в S3. Мы находимся https://www.pubnub.com/, и мы сохраняем данные об использовании в S3 нашей сети для целей выставления счетов. У нас есть файлы журналов с разделителями табуляции, хранящиеся в ведре S3. Athena дает нам HIVE_CURSOR_ERROR
сбой.Amazon AWS Athena S3 и Glacier Mixed Bucket
Наше ведро S3 настроено на автоматическое нажатие на ледник AWS через 6 месяцев. В нашем ковше есть файлы S3, горячие и готовые к чтению в дополнение к файлам резервного копирования Glacier. Из-за этого мы получаем ошибки доступа от Athena. Файл, на который ссылается ошибка, является резервной копией Glacier.
Я думаю, что ответ будет следующим: не сохраняйте резервные копии ледников в одном ковше. У нас нет этого варианта с легкостью из-за наших размеров объема данных. Я считаю, что Athena не будет работать в этой настройке, и мы не сможем использовать Athena для нашего анализа журналов.
Однако, если есть способ, мы можем использовать Афину, мы были бы в восторге. Есть ли решение для HIVE_CURSOR_ERROR
и способ пропустить файлы ледника? Наш ведро s3 представляет собой плоское ведро без папок.
Имя объекта S3 файла показано выше и ниже скриншотах опускается на скриншоте. Ссылка на файл в HIVE_CURSOR_ERROR
фактически является объектом Glacier. Вы можете увидеть его на этом скриншоте нашего S3 Bucket.
Примечание Я попытался отправить на https://forums.aws.amazon.com/, но это не было Буэно.
Я думаю, что это может быть ошибка в Афине. Нигде в документации Афины не упоминается ледник. – spg
Я добавил несколько подробностей, показывающих, что наше имя файла объекта s3 фактически находится в состоянии объекта glacier. – PubNub