2013-06-03 3 views
1

Я оцениваю EC2/EMR для запуска кластера Hadoop ~ 20 узлов. (custom JAR кластер). Я запустил простой пример WordCount на одноузловой 3.3 ГГц оперативной памяти VMWare объемом 2 ГБ, который занимает менее 10 секунд. Пример WordCount занимает 3 минуты, чтобы завершить EMR с 2 c1.mediumm экземплярами (исключая время запуска 3-5 минут). Принимает то же время для 2 m1.small экземпляров. При выполнении задания на EMR возникнут некоторые накладные расходы, и, возможно, этот размер проблемы слишком мал, поэтому это кажется понятным.Шкала для упругой картыReduce (EMR)?

В каких проблемах размера вы начинаете видеть преимущества облачности? Или примерно по количеству узлов или вычислительных единиц?

ответ

2

Если вы занимаетесь разработкой EMR, это означает, что вы просите Amazon предоставить вам кластер из N компьютеров по требованию, а простой факт обеспечения и предоставления вам этих машин может занять несколько минут , не говоря уже о том, что эти машины должны быть настроены, могут иметь загрузочные действия и т. д. Я редко видел, что задания EMR (даже большие) занимают более 10 минут, чтобы подготовить кластер, но я также редко видел, что кластер заработал менее чем за пару минут.

Если у вас есть работа, в которой вы работаете часто (например, каждый час), тогда затраты на настройку и закрытие вашего кластера EMR могут быть слишком большими, в этом случае было бы неплохо создать ваш кластер с некоторыми зарезервированными экземплярами на EC2. С зарезервированными экземплярами у вас всегда будет свой собственный кластер и администрируется вами, поэтому нет времени потерять настройку/закрытие кластера, это ведет себя как обычный кластер Hadoop.

Что я делал за последние пару лет, это использование кластера EC2 в зарезервированных экземплярах, которые всегда работают, и все задания работают на нем, но для некоторых очень больших заданий, которые не могут соответствовать на моем кластере я запускаю их на EMR, где я могу выбрать, сколько узлов я хочу, и поскольку это большие задания, время установки/выключения кластера невелико по сравнению с общей продолжительностью выполнения. Я бы не рекомендовал использовать EMR для небольших/частых заданий.