Я работаю над сокращением задания на карту, состоящим из нескольких шагов. Используя mrjob, каждый шаг получает предыдущий шаг вывода. Проблема в том, что я этого не хочу.Как конкретно определить ввод для каждого шага карты в MRJob?
Я хочу извлечь некоторую информацию и использовать ее на втором шаге против всех входных данных и так далее. Можно ли это сделать с помощью mrjob?
Примечание: Поскольку я не хочу использовать emr, this question не очень помогает мне.
ОБНОВЛЕНИЕ: Если бы это было невозможно сделать на одном рабочем месте, мне нужно сделать это на двух отдельных работах. В этом случае, есть ли способ обернуть эти две работы и управлять промежуточным выходом и т. Д.?
Не уверен, что, если я вас понимаю. Но вы считали использовать Оози или Весну? –
Вопрос кажется немного абстрактным. Можете ли вы сделать свои очки более ясными, показывая нам какой-то код, и что именно вы пытаетесь сделать? –
@ RadekTomšej Я пробовал, как sonic ответ. Каковы преимущества использования Oozie или Spring над этим подходом? Не могли бы вы дать ответы на некоторые примеры? – Mehraban