У меня есть несколько основных вопросов относительно Федерация HDFS.Федерация HDFS
Возможно ли прочитать файл, созданный на одном имени, с другого узла, который находится в федерации кластера?
Поддерживает ли данная версия Hadoop
эту функцию?
У меня есть несколько основных вопросов относительно Федерация HDFS.Федерация HDFS
Возможно ли прочитать файл, созданный на одном имени, с другого узла, который находится в федерации кластера?
Поддерживает ли данная версия Hadoop
эту функцию?
№ Это невозможно сделать.
Это не дает ответа на вопрос. Чтобы критиковать или просить разъяснения у автора, оставьте комментарий ниже их сообщения. - [Из обзора] (/ review/low-quality-posts/10161266) –
Он спросил, возможно ли это. Я сказал, что это не так. Пожалуйста, просмотрите вопрос. :) –
Спасибо Jithin Shaji за ваш ответ. У меня есть следующее требование, можете ли вы предложить, возможно ли это с Hadoop (HDFS) или нет и как. 1) У нас есть два центра обработки данных, называемых DCE и DCW в двух разных местах. Наше требование заключается в подключении пользователя к одному из центров обработки данных, либо DCE, либо DCW должны иметь доступ к своим данным, которые существуют в другом противоположном центре данных. 2) \t Мы должны быть в состоянии получить данные, существующие в одном из датацентров, в случае отказа этого центра обработки данных. Моим основным требованием является то, как мы можем реплицировать данные HDFS в двух центрах обработки данных. – RKMurthy
поведение по умолчанию политики блока репликации в Hadoop может быть изменен путем расширения интерфейса BlockPlacementPolicy и указывая класс к dfs.block.replicator.classname собственности в файлах конфигурации Hadoop.
Пожалуйста, изучите BlockPlacementPolicy, чтобы получить лучшее изображение.
Фактически вы можете изменить, где ваши блоки могут быть размещены в кластере.
Для этого вам не нужно использовать федерацию HDFS. Федерация HDFS используется только тогда, когда данные наменования слишком велики, чтобы удерживать один наменодай. –
У меня есть следующее требование, можете ли вы предложить, возможно ли это с Hadoop (HDFS) или нет и как. 1) У нас есть два центра обработки данных, называемых DCE и DCW в двух разных местах. Наше требование заключается в подключении пользователя к одному из центров обработки данных, либо DCE, либо DCW должны иметь доступ к своим данным, которые существуют в другом противоположном центре данных. 2) \t Мы должны быть в состоянии получить данные, существующие в одном из датацентров, в случае отказа этого центра обработки данных. Моим основным требованием является то, как мы можем реплицировать данные HDFS в двух центрах обработки данных. – RKMurthy
Я уже сказал u решение «BlockPlacementStrategy» –
Позвольте мне объяснить, как имя узла федерации работает на Apache web site
NameNode:
Для масштабирования сервиса имен по горизонтали, федерации использует несколько независимых Namenodes/пространств имен.
Namenodes объединяются; Namenodes являются независимыми и не требуют координации друг с другом.
Datanodes используются как общее хранилище для блоков всеми Namenodes. Каждый Datanode регистрируется со всеми Namenodes в кластере. Датаноды посылают периодические биения и блокируют отчеты. Они также обрабатывают команды из Namenodes.
В сводке,
Имя узла являются взаимоисключающими и не требует связи между ними. Узлы данных могут совместно использоваться несколькими узлами имен.
Чтобы ответить на ваш вопрос, это невозможно. Если данные записаны на один узел имени, вы должны связаться с этим именем только для получения данных. Вы не можете задать другой узел имен.
Что касается ваших обновленных комментариев по репликации данных,
Когда коэффициент репликации три, политика размещения HDFS является поставить одну реплику на одном узле в локальной стойке, другой на другом узле в локальная стойка и последняя на другом узле в другой стойке - as per official documentation.
Вы можете использовать эту функцию и получить данные из другого дата-центра, если у вас есть сбои в локальном RAC.Но учтите, что вы читаете данные из одного федеративного Namenode, а не из другого Federated Namenode.
Один федеративный Namenode не может читать данные из другого Федеративного Namenode. Но они могут использовать один и тот же набор Datanodes для операций чтения и записи.
EDIT:
С в каждой федерации, вы можете иметь автоматический сбое в NameNode. Если Active NameNode не работает в федерации, Stand-by Namenode возьмет на себя функции активного Namenode.
См. Ниже сообщение SE для получения более подробной информации.
о «Вы не можете задать другой узел имен». что произойдет, если узел имени опустится? Мы потеряли доступ к некоторым файлам? Как узнать узел имени, который знает, где находится файл, который я ищу? – ozw1z5rd
Если активный Namenode выключен, Stand-by станет Active Namdenode. Обратитесь к этому сообщению: http://stackoverflow.com/questions/33311585/how-does-hadoop-namenode-failover-process-works/33313804#33313804 –
ОК, но где узел имени получает информацию? На hadoop-HA вторичный узел имен всегда находится в синхронизации, в этом случае у нас есть резервный узел для каждого узла объединенного имени? – ozw1z5rd
Я имею следующее требование, пожалуйста, вы можете предложить это возможно с Hadoop (HDFS) или нет и как. 1) У нас есть два центра обработки данных, называемых DCE и DCW в двух разных местах. Наше требование заключается в подключении пользователя к одному из центров обработки данных, либо DCE, либо DCW должны иметь доступ к своим данным, которые существуют в другом противоположном центре данных. 2) \t Мы должны быть в состоянии получить данные, существующие в одном из датацентров, в случае отказа этого центра обработки данных. Моим основным требованием является то, как мы можем реплицировать данные HDFS в двух датацентрах. – RKMurthy