2015-08-11 6 views
1

Пока я запрашиваю свои файлы ORC на hdfs, все хорошо и очень быстро - но когда я хочу запросить данные, пока он хранится на S3, он сумасшедший медленный, и запросы невозможно закончить.Запрос файла Orc на s3n сумасшедший медленный

Я использую Улей 0,12 моей создать заявление выглядит следующим образом

CREATE external TABLE externalORCFiles (... , ... , ...) 
STORED AS ORC 
location 's3n://...'; 

это мне кажется, что там была та же проблема с ORC + Presto + S3 (see here), но я не мог найти что-то подобное для Улей

+0

У вас есть обновление? Я столкнулся с теми же проблемами на Hive 1.1 – Ederson

+0

Кто-нибудь пробовал это с Presto на Amazon EMR ?? – Karshit

ответ

0

S3 - очень хорошее пространство для хранения, когда дело доходит до холодного хранения. Однако это не очень подходит для пространства HDFS. Данные S3 перемещаются со скоростью около 50 Мбит/с (может быть более или менее, но намного медленнее, чем HDFS). Это выбор для вас, чтобы выбрать между скоростью & стоимости.

+0

Эй, спасибо, за ответ. Это нормально, что скорость чтения не такая быстрая, как у HDFS, но она действительно безумная медленная ... для выполнения запроса в текстовых файлах потребовался кластер из 16 узлов, а тот же кластер в файлах ORC завершил около 5% работа после этого времени ... Я думаю, проблема в том, что S3n - родная файловая система. По некоторым причинам производительность FILE ORC filereader кажется довольно неплохой – PhanThomas