У меня есть кластер Hadoop с 4 DataNodes. Я смущен между двумя проблемами: репликацией данных и распределением данных.Репликация HDFS и распределение данных
Предположим, что у меня есть файл объемом 2 ГБ, а множитель - 2 & Размер блока - 128 МБ. Когда я помещаю этот файл в hdfs, я вижу, что создаются 2 копии каждого 128 МБ блоков, и они помещаются в datanode3 и datanode4. Но datanode2 & datanode1 не используются. Данные реплицируются из-за коэффициента репликации, но я ожидаю увидеть некоторые блоки данных в datanode1 и datanode2. Что-то не так?
Предположим, что у меня есть 20 DataNodes, а коэффициент репликации - 2. Если я поместил файл (2 ГБ) на HDFS, я снова ожидаю увидеть две копии каждого 128 МБ, но также ожидаю увидеть эти 128 МБ блоков распределяется между 20 DataNodes.