Для заданных операций с большим набором данных существует ли способ определить, могут ли данные быть разложены в операции преобразования данных?

Мы делаем статистику и т. Д. На больших наборах данных. Сейчас все делается на одной машине. Мы изучаем возможность перехода к парадигме уменьшения карты, где мы разлагаем данные на подмножества, выполняем некоторые операции над этим, а затем объединяем результаты.Для заданных операций с большим набором данных существует ли способ определить, могут ли данные быть разложены в операции преобразования данных?

Есть ли какой-либо математический тест, который может быть применен к набору операций для определения того, могут ли данные данные работать?

Или, может быть, список где-то говорит, что может и не может быть разложено?

Например, я не думаю, что есть способ, чтобы разложить стандартное отклонение, но есть ...

редактировать: добавлены теги

источник

2011-12-19 marathon

Посмотрите на эту статью: http://www.janinebennett.org/index_files/ParallelStatisticsAlgorithms.pdf. У них есть алгоритмы для многих распространенных статистических задач, и есть открытый исходный код.

источник

2011-12-23 18:27:32

Дисперсия, а также среднее значение можно рассчитать на сайте (за один проход), см. wikipedia. Существует также параллельный алгоритм.

источник

2011-12-20 17:45:51 Andreas

Параллельные вычисления лучше всего подходят для проблемы, которые являются «смущающими параллелями», то есть нет никакой зависимости между любыми двумя задачами. http://en.wikipedia.org/wiki/Embarrassingly_parallel

Кроме того, в случаях, когда операции являются коммутативными или ассоциативными, программы MapReduce могут быть легко оптимизированы для повышения производительности.

источник

2011-12-21 01:31:47

Для заданных операций с большим набором данных существует ли способ определить, могут ли данные быть разложены в операции преобразования данных?

ответ

Смежные вопросы