Привет, ребята, я узнал об Amazon EMR в последнее время, и, насколько я знаю, EMR-кластер позволяет нам выбирать 3 узла.Amazon Emr - Что нужно узлам Task, когда у нас есть узлы ядра?
- Мастер, который запускает демонов Primary Hadoop, таких как NameNode, Job Tracker и Resource Manager.
- Ядро, которое запускает демоны Datanode и Tasktracker.
- Задача, в которой работает только TaskTracker.
Вопрос к вам, ребята, почему EMR предоставляет узлы задач? Где, как hadoop, предполагает, что у нас должен быть демон Datanode и демон Tasktracker на том же узле. Какова логика Амазонки за это? Вы можете хранить данные в потоке S3 на HDFS на основных узлах, выполнять обработку на HDFS, кроме совместного использования данных с HDFS, с узлами задач, которые в этом случае будут увеличивать IO на голове. Поскольку, насколько я знаю в hadoop, TaskTrackers работают на DataNodes, которые имеют блоки данных для этой конкретной задачи, то почему TaskTrackers на разных узлах?