2016-10-19 7 views
-1

Я пытаюсь использовать SSD, чтобы улучшить производительность улья. SSD есть, имеет быстрый доступ к произвольной выборке. Воспользовавшись, чтобы попытаться изменить улей, который будет выполнен в коде mapreduce. Теперь моя идея - упростить или устранить шаг перетасовки. Возможно ли это? Если возможно, где вы меняете?Улучшение производительности улья с SSD

пс. Расскажите нам, что происходит, когда улей работает, где хранятся временные файлы.

Я плохо знаю английский. Прости. спасибо.

ответ

0

В теории вы можете написать свой собственный разделитель и отправить данные на редукторе, который работает на том же узле, где работал картограф. Поступая таким образом, вы никогда не получите выходной файл «unsplitted», поэтому избегайте перетасовки - это не очень хорошая идея.

Если у вас есть быстрый диск, например SSD, вы можете увеличить размер блока. Обычно размер блока вычисляется так, чтобы время поиска не превышало 1% всей передачи блока.

Это также уменьшит количество используемых картографов, так как количество разделов немного. В некотором смысле, меньшее количество карт также меньше перетасовки. Использование сжатого формата файла для промежуточного файла, а также ускорение работы.