2012-03-15 4 views
5

Сценарий 1:Восстановление Hadoop NameNode Отказ

HDFS fsimage и editlog записывается в нескольких местах, в том числе монтируемого.

A) NameNode Daemon Крушения: Решение: Просто перезапустить процесс NameNode

B) Хост является нисходящим, где имя узла работает.

Решение:

  1. Запустите NameNode в другом хосте с пустым dfs.name.dir
  2. Направьте dfs.name.dir к NFS горе, где мы имеем копию мета-данных. ИЛИ
  3. варианта
  4. Использование --importCheckpoint при запуске NameNode после указывая fs.checkpoint.dir к пункту каталога из вторичного NameNode
  5. Измените fs.default.name к резервному имени хоста URI и перезапустить кластер со всем ведомым IP в ведомом файле.

Примечание. Мы можем пропустить редактирование, которое могло произойти после последней контрольной точки.

Сценарий 2:

fsimage HDFS записывается в один каталог.

A) NameNode Daemon Крушения: Решение: Неизвестный

B) Хост вниз, где имя узла работает.

Решение:

  1. Создайте пустой каталог, указывающий на dfs.name.dir в каталог в (1)
  2. Запуск NameNode с -importCheckpoint после указывая fs.checkpoint.dir к пункту каталог из вторичного NameNode
  3. Измените файл fs.default.name на URI резервной копии имени хоста и перезапустите кластер со всеми подчиненными IP-адресами в файле подчиненных устройств.

Таким образом, мы снова пропустим файлы, отредактированные после последней контрольной точки.

Пожалуйста, дайте мне знать, если мы сможем вручную восстановить кластер.

+0

Можете ли вы отредактировать свое сообщение, чтобы включить правильный вопрос, пожалуйста? Я не уверен, что вы спрашиваете. Также было бы полезно опубликовать некоторые фрагменты файла журнала, если они у вас есть. Это поможет мне диагностировать ваши проблемы. Спасибо –

+0

Я даю некоторый сценарий производства. Что делать в случае сценария 1 и сценария 2. Чтобы получить различные методы восстановления Namenode – Jagaran

+0

изменил вопрос сейчас – Jagaran

ответ

1

В процессе производства вы должны запустить NameNodes в режиме HA с помощью quorum of journalling nodes или общего файла HA-NFS storage для файлов транзакций редактирования журнала. Если вы не хотите или используете HA, вам нужно запустить NN с как минимум двумя каталогами хранилища для обоих изображений и журналов редактирования, предпочтительно, в качестве точки монтирования NFS с мягким монтажом для автоматического останова системы имен ,

Если у вас есть только один каталог хранилища и нет конфигурации HA, то лучшее, что вы можете получить, это контрольная точка за прошлый период - если вы потеряете все файлы. Если вы не потеряли файлы, вы можете попробовать опцию hadoop namenode -recover, как показано на рисунке post, чтобы иметь возможность восстановить изображение, а также некоторые (или все) изменения.

+0

В чем заключается риск выполнения опциона наложения носового узла на отказе Namenode. –

+0

Риск теряет изменения, которые вы просите в режиме восстановления, чтобы пропустить. Это может быть что угодно: от создания файлов или каталогов, для изменения атрибутов, таких как обновления времени доступа. –