Я смотрю на размер большого кластера (ядра 10k), который должен поддерживать как глубокую аналитическую обработку, так и связанные с I/O большие данные, и я хочу услышать от некоторых людей, которые построили большой кластер данных, что они используется для измерения вычислений по сравнению с локальным дисковым хранилищем. Я предполагаю наличие архитектуры с прямым подключением, которая поддерживается онлайн-хранилищами данных на основе MapReduced.Какова типичная связь между вычислительными и хранилищами для кластеров Hadoop для больших масштабов?
Посмотрите на какое-то оборудование с низкой плотностью среды anno 2012, такое как dual Xeon 5650s, я могу разместить примерно 2 ТБ на сервер в качестве прямого прикрепленного хранилища , Это дало бы мне около 100TFlops на 2 ТБ памяти или соотношение 5: 1. Оборудование с низкой плотностью может иметь низкое значение: 1: 1, оборудование с более высокой плотностью может достигать 10: 1.
Мне было бы интересно узнать, какие отношения выполняются другими большими людьми с данными.
В третьей статье есть ответы – Ravenwater