Мы знаем, что куст не выполняет выборку перед запуском сортировки. Он просто использует сортировку макенизма MapReduce и выполняет сортировку слияния в сторону уменьшения, и используется только одно сокращение. Поскольку сокращение собирает все данные, выводимые mapper в этом сценарий, скажем, сокращение скорости работы на компьютере составляет 100 ГБ диска, а что, если данные слишком велики, чтобы вписаться в диск?Как осуществляется сортировка (заказ) в Hive?
1
A
ответ
0
Параллельный механизм сортировки улья все еще находится в разработке, см. here.
Хорошо спроектированный хранилище данных или приложение базы данных позволят избежать такой глобальной сортировки. При необходимости попробуйте использовать Pig или Terasort (http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html)