0

Постановка задачи -Как сравнить репликацию в больших данных

Replications обычные задачи в промышленности и ее не менее важно, чтобы проверить репликацию, если реплицируется база данных имеет одни и те же данные, как же, как в исходной базе данных.

Пример -

У меня есть база данных D1 и для целей тестирования я тиражирование базы данных D1 до D2 базы данных.

После завершения репликации, я хочу проверить, идентичны ли обе базы данных или нет, что может быть сделано с использованием сравнения строк, однако его худшее решение для больших баз данных, где длина данных может быть в терабайтах.

Могут ли эксперты предоставить решение или любой намек на такие проблемы в реальном времени?

+2

Стоит отметить: Hadoop - это не база данных –

ответ

0

Могут ли эксперты предоставить решение?

Каждая база данных решает проблему по-другому. Используемый метод зависит от архитектуры базы данных. Примеры:

  • Cassandra architecture + a process resembling replication,
  • несколько "вещей" использует Merkle Trees. Например, в качестве репликации можно считать команду «git clone». Создается новая реплика. Архитектура Git использует деревья Markle для подключения своих «внутренних файлов», поэтому это самоограничивающее решение. То же самое касается Биткойн blockchain,
  • , когда есть необходимость в «живой репликации» - или лучше - распределенные вычисления, более сложные решения могут использоваться как Paxos.

(...) любой намек на такие проблемы в реальном времени?

Я не уверен, если вы хотите, чтобы спросить, что проблемы есть, так на всякий случай: имея одну базу данных D1 реплицируется D2 трудно сравнивать из-за объема данных, но самое главное, потому что D1 в реальном мире - это «живая» база данных, которая постоянно меняется.