Я пытаюсь построить математическую модель доступности файла в распределенной файловой системе. Я разместил этот вопрос в MathOverflow, но это может быть классифицировано как CS-вопрос, поэтому я также даю ему шанс.Расчет вероятности сбоя системы в распределенной сети
Система работает следующим образом: узел хранит файл (encoed с использованием кодов стирания) в узлах ремитов r * b, где r - коэффициент репликации, а b - целочисленная константа. Файлы, закодированные с помощью Erasure, обладают свойством, что файл может быть восстановлен, если по крайней мере b из удаленных узлов доступны и вернуть его часть файла.
Простейший подход к этому состоит в том, чтобы предположить, что все удаленные узлы независимы друг от друга и имеют одинаковую доступность p. С учетом этих допущений наличие файла следует за биномиальным распределением, т. Е. Binomial distribution http://bit.ly/dyJwwE
К сожалению, эти два предположения могут ввести ошибку, отличную от нее, как показано в этой статье: http://deim.urv.cat/~lluis.pamies/uploads/Main/icpp09-paper.pdf.
Один из способов преодоления предположения, что все узлы имеют одинаковую доступность, - это рассчитать вероятность каждой возможной комбинации доступного/недоступного узла и взять сумму всех этих результатов (что является тем, что они предлагают в выше, только формально, чем то, что я только что описал). Этот подход можно рассматривать как двоичное дерево с глубиной r * b, и каждый выход - одна из возможных комбинаций доступных/недоступных узлов. Доступность файла - это то же самое, что вероятность того, что вы придете в отпуск с> = b доступными узлами. Этот подход является более правильным, но имеет вычислительную стоимость Ordo http://bit.ly/cEZcAP. Кроме того, это не касается предположения об отсутствии узла.
Есть ли у вас идеи хорошего приближения, которые вводят меньше ошибок, чем биномиальное распределение-аппроксимация, но с лучшей вычислительной стоимостью, чем http://bit.ly/d52MM9 http://bit.ly/cEZcAP?
Вы можете предположить, что данные доступности каждого узла представляют собой набор кортежей, состоящий из (measurement-date, node measuring, node being measured, succes/failure-bit)
. С помощью этих данных можно, например, рассчитать соотношение доступности между узлами и дисперсию доступности.
Что вы подразумеваете под «независимостью узла»? Вы говорите о графике, который представляет сеть узлов, а ошибки некоторых ключевых узлов могут разбивать граф на топологически разные подсети, которые не могут общаться друг с другом? Или вы предполагаете, что отказы отдельных узлов могут привести к сбою других узлов (например, поскольку они могут быть виртуальными машинами, расположенными на одной и той же физической машине)? Без уточнения характера корреляции невозможно предложить какие-либо модели. – user8472
В качестве продолжения предыдущего вопроса важно указать, возможно ли восстановление файла (чтение: значимый), если копия доступна в подсети узлов, способных общаться между собой. Или, если вам нужен доступ из «корневого узла» в подсеть не менее b узлов, чтобы восстановить файл, о котором идет речь. – user8472
В последнем абзаце вводится «дата измерения» как дополнительное свойство. Это вводит временную шкалу в систему, где ранее система считалась статической. Раньше узел был либо живым (вероятность 'p'), либо мертвым (вероятность' 1-p'). С временным масштабом система может перестать быть статичной, и некоторые средние промежутки между отказами (для переключения «живых» узлов на «мертвые») и промежуточного времени между ремонтами (обратное) могут стать значимыми. Если у вас есть такая ситуация, вероятность восстановления файла становится зависящей от времени. – user8472