Я пытался понять, как выполняется работа по сокращению карты на HDFS vs S3. Может кто-то, пожалуйста, задайте мои вопросы:Как работает карта-сокращение на HDFS против S3?
Обычно кластеры HDFS не только ориентированы на хранение, но также содержат мощность для выполнения работ MR; и поэтому задания отображаются на нескольких узлах данных и сокращены на несколько. Точнее, отображение (фильтр и т. Д.) Выполняется на локальных данных, тогда как сокращение (агрегация) выполняется на общем узле.
Этот подход работает так же, как на S3? Насколько я понимаю, S3 - это просто хранилище данных. Имеет ли hasoop КОПИРОВАТЬ ВСЕХ данных из S3, а затем запускать Map (фильтр) и сокращать (агрегирование) локально? или он точно соответствует такому же подходу, что и HDFS. Если первый случай верен, выполнение заданий на S3 может быть медленнее, чем выполнение заданий на HDFS (из-за копирования служебных данных).
Пожалуйста, поделитесь своими мыслями.