2017-02-14 4 views
1

HDFS имеет большой размер блока (64 МБ), одна из причин, о которых идет речь, - это время поиска, которое становится выше для HDD с меньшими размерами блоков, поэтому размер блока больше (другая причина - размер индекса на имени узла увеличивается , но давайте не будем обсуждать это в ответах)Требует ли время поиска для HDFS, размещенного на SSD?

Теперь, когда мы используем SSD, время поиска действительно существенно по сравнению с HDD и не имеет значения?

ответ

2

Вы правы, что время поиска не является большой проблемой при использовании SSD.

В режиме поиска жестких дисков обычно находится между 0,2 и 0,8 мс. С SSD нет движущихся частей, поэтому измерение времени поиска только проверяет электронные схемы, которые готовят конкретное место в памяти на запоминающем устройстве. Типичные SSD будут иметь время поиска от 0,08 и 0,16 мс.

Но время поиска не является единственным критерием, определяющим расчет размера блока. HDFS обычно используется в качестве хранилища FS для распределенных систем, таких как Hadoop. Hadoop и других распределенных обрабатывающих экосистем, работайте над концепцией Разделите и покорите. Это делит задачу на более мелкие фрагменты и обрабатывает их на нескольких машинах с товарное оборудование.

Что произойдет, если размер блока будет слишком большим, если учесть, что твердотельные накопители имеют время поиска на порядок меньше, чем на жестких дисках?

Это по существу означает меньший параллелизм. Задача для обработки, которая может быть разделена на 10 машин для файла размером 640 МБ с размером блока 64 МБ, может ограничить до 3 параллельных mappers с размером блока 256 МБ. Это существенно переведет более длительные задачи, что в конечном итоге приведет к более медленным работам. Все будет еще хуже, когда задача в руке - процесс с интенсивным вычислением.

Что произойдет, если размер блока слишком мал, учитывая тот факт, что твердотельные накопители имеют время поиска на порядок меньше, чем на жестких дисках?

  1. Теперь в этом случае, вы будете иметь много задач, так как размер блока с низким и много виртуальных машинах будет порождал в кластере, что приводит к неэффективному использованию кластера.
  2. Ваш NameNode будет завален большим количеством информации с, может быть, большим количеством блоков, созданных даже для небольшого файла. Который теперь может перевести на более горький NameNode или какое-то другое решение, такое как федерация NameNode.

Итак, суть в том, что у меня есть твердотельные накопители. Но выбрал ваш размер блока соответствующим образом! Иначе вы можете в конечном итоге с медленнее кластера с SSD и большой размер блока, в отличие от существующей реализации жестких дисков и соответствующего размера блока

Надежда, что помогает!