2012-01-01 1 views
4

Я смотрю на размер большого кластера (ядра 10k), который должен поддерживать как глубокую аналитическую обработку, так и связанные с I/O большие данные, и я хочу услышать от некоторых людей, которые построили большой кластер данных, что они используется для измерения вычислений по сравнению с локальным дисковым хранилищем. Я предполагаю наличие архитектуры с прямым подключением, которая поддерживается онлайн-хранилищами данных на основе MapReduced.Какова типичная связь между вычислительными и хранилищами для кластеров Hadoop для больших масштабов?

Посмотрите на какое-то оборудование с низкой плотностью среды anno 2012, такое как dual Xeon 5650s, я могу разместить примерно 2 ТБ на сервер в качестве прямого прикрепленного хранилища , Это дало бы мне около 100TFlops на 2 ТБ памяти или соотношение 5: 1. Оборудование с низкой плотностью может иметь низкое значение: 1: 1, оборудование с более высокой плотностью может достигать 10: 1.

Мне было бы интересно узнать, какие отношения выполняются другими большими людьми с данными.

ответ

2

Вот некоторые статьи 123 для начала использования аппаратного обеспечения Hadoop.

+0

В третьей статье есть ответы – Ravenwater

1

С третьей статьи Praveen в от Эрика Baldeschwieler на Hortonworks датированного сентября 2011:

Мы задаем много вопросов о том, как выбрать Apache Hadoop оборудование рабочего узла. В течение моего времени в Yahoo !, мы купили множество узлов с 6 * 2TB SATA-дисками, 24-гигабайтной оперативной памятью и 8 ядрами в конфигурации с двумя гнездами. Это оказалось довольно хорошей конфигурацией. В этом году я видел системы с дисками SATA 12 * 2 ТБ, 48 ГБ оперативной памяти и 8 ядер в конфигурации с двумя гнездами. В этом году мы увидим переход на 3 ТБ.

Какая конфигурация имеет смысл для любой данной организации, определяется такими отношениями, как отношение объема хранения к вычислительной нагрузке и другие факторы, на которые невозможно ответить в общем виде. Кроме того, аппаратная индустрия движется быстро. В этом посте я попытаюсь изложить принципы, которые в большинстве случаев определяли выбор конфигурации аппаратного обеспечения Hadoop за последние шесть лет. Все эти мысли направлены на создание средних и больших кластеров Apache Hadoop. Скотт Кэри сделал хороший случай для небольших машин для небольших кластеров на днях в списке рассылки Apache.