2016-10-13 7 views
3

Я знаю, что как недореплицированные блоки, так и Mis-реплицированные блоки происходят из-за меньшего количества узлов данных в отношении набора коэффициентов репликации.Hadoop HDFS - Разница между отсутствующей репликой и в реплицированных блоках

Но в чем разница между ними?

При повторной установке коэффициента репликации на 1, где доступный узел данных равен 1, очищаются как недореплицированные блоки, так и ошибка Missing replica. Обеспечил путем выполнения команды HDFS FSCK/ FSCK report

ответ

6

От "Hadoop: The Definitive Guide" Том Уайт:

Чрезмерная тиражируемых блоков Эти блоки, которые превышают их целевую репликацию к файлу, к которому они принадлежат. Как правило, чрезмерная репликация не является проблемой, и HDFS автоматически удаляет излишки реплик.

Недокументированные блоки Это блоки, которые не соответствуют их целевой репликации для файла, к которому они принадлежат. HDFS автоматически создаст новые реплики недореплицированных блоков до тех пор, пока не встретит целевую репликацию. Вы можете получить информацию о реплицируемых блоках (или , ожидающих репликации), используя hdfs dfsadmin -metasave.

Misreplicated блоки Это блоки, которые не удовлетворяют политику размещения блок реплики (см реплики Placement). Например, для уровня репликации из трех в кластере multirack, если все три копии блока находятся на одной и той же стойке, тогда блок будет неправильно решен, потому что реплики должны быть распределены по меньшей мере на двух стойках для обеспечения устойчивости. HDFS будет автоматически повторно реплицировать нереализованные блоки, чтобы они удовлетворяли политике размещения стойки .

Коррумпированные блоки Это блоки, чьи реплики повреждены. Блоки с по крайней мере одной некорректной репликой не сообщаются как поврежденные; namenode будет реплицировать некорректную реплику до тех пор, пока не будет выполнена целевая репликация.

Пропущенные реплики Это блоки без копий в любом месте кластера.

Надеюсь, этот вопрос ответит на ваш вопрос.