2011-12-19 3 views
0

Мы делаем статистику и т. Д. На больших наборах данных. Сейчас все делается на одной машине. Мы изучаем возможность перехода к парадигме уменьшения карты, где мы разлагаем данные на подмножества, выполняем некоторые операции над этим, а затем объединяем результаты.Для заданных операций с большим набором данных существует ли способ определить, могут ли данные быть разложены в операции преобразования данных?

Есть ли какой-либо математический тест, который может быть применен к набору операций для определения того, могут ли данные данные работать?

Или, может быть, список где-то говорит, что может и не может быть разложено?

Например, я не думаю, что есть способ, чтобы разложить стандартное отклонение, но есть ...

редактировать: добавлены теги

ответ

1

Дисперсия, а также среднее значение можно рассчитать на сайте (за один проход), см. wikipedia. Существует также параллельный алгоритм.

1

Параллельные вычисления лучше всего подходят для проблемы, которые являются «смущающими параллелями», то есть нет никакой зависимости между любыми двумя задачами. http://en.wikipedia.org/wiki/Embarrassingly_parallel

Кроме того, в случаях, когда операции являются коммутативными или ассоциативными, программы MapReduce могут быть легко оптимизированы для повышения производительности.