2016-05-26 4 views
2

У меня есть несколько заданий для потока данных Google для сбора данных и целей ETL. , а затем google dataproc job (Spark) для дальнейшего машинного обучения.Несколько заданий Google-потока данных и данных-данных

Я хотел бы связать эти задания вместе, как рабочий процесс, тогда я должен запланировать весь рабочий процесс.

у вас есть предложение/продукты, которые могут мне помочь?

ответ

1

Я не знаю ни больших ответов на GCP прямо сейчас, но вот несколько вариантов:

  • использование очереди задач Google App Engine
  • использовать следующий шаблон, чтобы вызвать работу DataProc после ваше задание Dataflow завершено: используйте Create, чтобы создать фиктивный PCollection с одним элементом. Напишите ParDo над этой коллекцией, где тело DoFn содержит java-код, который вызывает ваше задание DataProc. Поскольку он обрабатывает коллекцию, содержащую один элемент, она будет выполняться один раз (по модулю). Выполните окончательный вывод своего задания Dataflow, обработайте его с помощью ParDo, который ничего не выводит и дает пустой PCollection. Передайте этот PCollection как дополнительный вход в ваш ParDo, который вызывает DataProc. Другими словами, используйте поддельную зависимость данных для принудительного упорядочения между телом вашего задания Dataflow и заключительным шагом, который создает задание DataProc.
0

Мы реализовали 2 подход к этому ...

  1. Выборочного решения для вызова dataproc заданий. Они включают в себя Spring планировщик для вызова Dataproc & потока данных с помощью Google SDK API

  2. One заданий dataproc, работающих в потоковом режиме, и это потоковый режим работы dataproc управляет другими dataproc и потоков данных рабочих мест. Мы отправляем сообщение в pub-sub и потоковый режим, получая сообщение, а затем вызываем дальнейшую цепочку.

Я предпочитаю 2-ое решение по 1, потому что мы имеем управлять Spring приложением с помощью формирования облака и т.д.

второго решения поставляется с дополнительной стоимостью выполнения заданий dataproc на 24 * 7.

 Смежные вопросы

  • Нет связанных вопросов^_^