Как мы знаем, SSD лучше использовать вместо жесткого диска. Но поскольку я сталкивался с его ограничениями, кто-то может подвести итоги ограничениям, а также объяснить, можем ли мы использовать его для кластеризации облаков для hadoop.Можно ли использовать SSD для файловой системы hadoop?
ответ
Да, вы можете использовать твердотельные накопители в кластере Hadoop. Я также знаю о нескольких кластерах, которые используют SSD.
Вопрос с SSD или HDD в основном стоит. Если вы используете SSD или нет, это должно зависеть от использования Hadoop. Если вы используете SSD в кластере, который в основном предназначен для архивирования данных и где производительность не имеет значения, SSD - это пустая трата денег.
Хороший подход, чтобы узнать, когда использовать SSD или HDD, - это узнать о последних возможностях YARN. Пряжа позволяет определять различные категории и группы для хранения данных. Таким образом, вы можете создавать гетерогенные узлы данных. Затем вы могли сохранить некоторые данные на SSD, реплики на жестком диске. Вы также можете увидеть, что такое холодные, теплые и горячие данные. Горячие данные (чаще всего доступны) должны быть на SSD, холодные данные на HDD.
Если вы посмотрите дальше, вы увидите множество архитектурных паттернов (таких как архитектуры Lamdba), где было бы целесообразно использовать SSD для нескольких слоев.
Как теоретически, если вы можете себе это позволить, вы даже можете создать свой кластер hadoop, который хранит все данные в памяти. Есть некоторые случаи, когда даже это имеет смысл. –
Я не думаю, что вы можете контролировать, где хранятся реплики ... * Затем вы могли сохранить некоторые данные на SSD, реплики на жестком диске * –
вы можете ... читать по типу хранения напр. https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/ArchivalStorage.html –