Как осуществляется сортировка (заказ) в Hive?

Мы знаем, что куст не выполняет выборку перед запуском сортировки. Он просто использует сортировку макенизма MapReduce и выполняет сортировку слияния в сторону уменьшения, и используется только одно сокращение. Поскольку сокращение собирает все данные, выводимые mapper в этом сценарий, скажем, сокращение скорости работы на компьютере составляет 100 ГБ диска, а что, если данные слишком велики, чтобы вписаться в диск?Как осуществляется сортировка (заказ) в Hive?

источник

2012-02-28 ygnhzeus

Параллельный механизм сортировки улья все еще находится в разработке, см. here.

Хорошо спроектированный хранилище данных или приложение базы данных позволят избежать такой глобальной сортировки. При необходимости попробуйте использовать Pig или Terasort (http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html)

источник

2012-02-28 05:22:06 tedxu

Как осуществляется сортировка (заказ) в Hive?

ответ

Смежные вопросы