2016-02-15 4 views
6

Люди, в которых я работаю, имеют некоторые базы данных MySQL на AWS (Amazon RDS). Мы создаем POC с BigQuery, и теперь я изучаю, как реплицировать базы на BigQuery (существующие регистры и новые в будущем). Мои сомнения:Синхронизация Amazon RDS с Google BigQuery

  • Как копировать таблицы и строки MySQL в BigQuery. Есть ли какой-нибудь инструмент для этого (я читаю об Amazon Database Migration Service)? Должен ли я копировать в Google Cloud SQL и экспортировать в BigQuery?
  • Как копировать будущие регистры? Можно ли создать задание внутри MySQL для отправки новых регистров после предопределенного числа? Например, после ввода 1000 новых строк (или времени), какое-то событие «срабатывает», а новые регистры копируются в Cloud SQL/BigQuery?

Моя первоначальная идея - сбросить исходную базу, загрузить ее в другую и использовать сценарий для прослушивания новых регистров и отправки их на новую базу.

Я объяснил это правильно? Это понятно?

+0

Я использую xplenty в основном зеркальные таблицы от mysql AWS RDS до BQ. Xplenty может отбрасывать и воссоздавать таблицы. Вы должны заплатить за это, но очень быстро и легко. Может быть полезно зарегистрироваться для отслеживания, чтобы даже использовать его для poc. Это то, что я сделал, и все еще использую его, так как позвольте мне больше сосредоточиться на более полезной жесткости, например, как я использую данные в BQ. Возможно, это быстрое решение, если вы буквально просто делаете это и должны быть быстрыми. – andrewm4894

ответ

1

Вам нужно будет использовать один из инструментов ETL, которые имеют интеграцию с mySQL и BigQuery, чтобы выполнить первоначальную передачу данных и скопировать последующие изменения в BigQuery. Взгляните на список доступных инструментов [1]

Вы также можете реализовать свой собственный инструмент, разработав процесс, который будет извлекать данные из mySQL в CSV-файл, а затем загружать этот файл в BigQuery с использованием импорта данных [2 ]

[1] https://cloud.google.com/bigquery/third-party-tools

[2] https://cloud.google.com/bigquery/loading-data-into-bigquery

2

в дополнение к тому, что сказал Вадим, вы можете попробовать:

  • туздЫшпра в CSV-файлы s3 (я считаю RDS позволяет это)
  • запустить «GSUtil» утилиты Google Cloud Storage, чтобы скопировать данные из s3 в ГКС
  • запустить «FILE.CSV Ок нагрузки», чтобы загрузить файл в BigQuery

Я заинтересован в том, чтобы услышать ваши впечатления, поэтому не стесняйтесь пинговать меня наедине.