0

Я пытаюсь выполнить обработку некоторых данных в потоке кинезий, используя скрипт свиньи на AWS EMR. Мне просто нужно сгруппировать данные потока и перенести его на s3. Я пытаюсь запустить это каждые пару часов. Сначала это кажется очень подходящим для AWS Data Pipeline, но я не могу понять, как передать номер итерации для использования в контрольной точке кинезита. Не похоже, что есть какой-либо способ увеличить число, которое будет передано скрипту свиньи. Я видел пример here, который включает в себя всегда кластер и скрипт crontab, которые увеличивают число итераций. Есть ли способ достичь этого, используя AWS Data Pipeline, который мне не хватает?Запуск сценария свиста с накипью в потоке Kinesis через aws EMR

ответ

1

У нас есть пример использования Data Pipeline для выполнения того, что вы хотите, но он использует Hive вместо Pig. Этого может быть достаточно, чтобы дать вам представление о правильном пути.

https://github.com/awslabs/data-pipeline-samples/tree/master/samples/kinesis

Если этот пример еще не отвечает на вопрос, пожалуйста, сообщите нам об этом, чтобы мы могли, возможно, взглянуть на создание другого примера, который адресует ваш случай использования.