9

Как вычислить матрицу кросс-корреляции pearson большого (> 10TB) набора данных, возможно, распределенным образом? Будет оценено любое эффективное предложение распределенного алгоритма.Расчет распределенной кросс-корреляционной матрицы

обновление: Я прочитал реализацию Apache Spark mlib корреляции

Pearson Computaation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala 
Covariance Computation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala 

, но для меня это выглядит как все вычисления происходят в одном узле и не распространяется в реальном смысле.

Пожалуйста, поставьте здесь немного света. Я также попытался исполнить его на 3 узла искрового кластера и ниже на скриншоте:

Entire Computation timeline One the task details

Как вы можете видеть из 2-го изображения, данные вытягивается вверх на одном узле, а затем вычисление делается. Я прямо здесь?

ответ

5

Для начала взгляните на this, чтобы узнать, все идет правильно. Затем вы можете обратиться к любой из этих реализаций: MPI/OpenMP: Agomezl или Meismyles, MapReduce: Vangjee или Seawolf42. Было бы интересно прочитать this, прежде чем продолжить. В другом примечании James's thesis предоставляет некоторые указатели, если вы заинтересованы в вычислении корреляций, которые являются устойчивыми к выбросам.

+0

Спасибо, что указали мне на тезис Джеймса. Было бы здорово, если бы вы тоже могли ответить на этот вопрос: http://stackoverflow.com/questions/42428424/how-to-calculate-mean-of-distributed-data –

+0

В тезисе Джеймса рассказывается о вычислении ковариации Маронны и Квадранта, но я не мог способный понять этот алгоритм 2, знаете ли вы какую-либо ссылку, в которой объясняются эти 2 алгоритма. –

 Смежные вопросы

  • Нет связанных вопросов^_^