Если вы занимаетесь разработкой EMR, это означает, что вы просите Amazon предоставить вам кластер из N компьютеров по требованию, а простой факт обеспечения и предоставления вам этих машин может занять несколько минут , не говоря уже о том, что эти машины должны быть настроены, могут иметь загрузочные действия и т. д. Я редко видел, что задания EMR (даже большие) занимают более 10 минут, чтобы подготовить кластер, но я также редко видел, что кластер заработал менее чем за пару минут.
Если у вас есть работа, в которой вы работаете часто (например, каждый час), тогда затраты на настройку и закрытие вашего кластера EMR могут быть слишком большими, в этом случае было бы неплохо создать ваш кластер с некоторыми зарезервированными экземплярами на EC2. С зарезервированными экземплярами у вас всегда будет свой собственный кластер и администрируется вами, поэтому нет времени потерять настройку/закрытие кластера, это ведет себя как обычный кластер Hadoop.
Что я делал за последние пару лет, это использование кластера EC2 в зарезервированных экземплярах, которые всегда работают, и все задания работают на нем, но для некоторых очень больших заданий, которые не могут соответствовать на моем кластере я запускаю их на EMR, где я могу выбрать, сколько узлов я хочу, и поскольку это большие задания, время установки/выключения кластера невелико по сравнению с общей продолжительностью выполнения. Я бы не рекомендовал использовать EMR для небольших/частых заданий.