Как назначить работу Hadoop условно?

Я довольно новичок в Hadoop, и особенно в Hadoop Job Scheduling. Вот что я пытаюсь сделать.Как назначить работу Hadoop условно?

У меня есть 2 потока, каждый из которых имеет работу Hadoop. У меня есть свобода вкладывать эти потоки в один и тот же проект или в разные. Я не хочу, чтобы задания Hadoop запускались одновременно в кластере, но я также хочу убедиться, что они запускаются в качестве альтернативы.

E.g. flow_1 (with hadoop_job_1) запускается и заканчивается -> flow_2 (с hadoop_job_2) запускается и заканчивается -> flow_1 (с hadoop_job_1) запускается и заканчивается и так далее.

И, конечно, я также хотел бы обработать особые условия изящно. . flow_1 done, но flow_2 не готов, тогда flow_1 получает возможность снова запускаться, если он готов, если поток_1 терпит неудачу, flow_2 все еще получает свою очередь и т. д.

Я хотел бы знать, какие планировщики я могу изучить, какие способный это сделать.

Мы используем MapR.

Благодаря

источник

2014-09-09 Bhushan

Это выглядит стандартное использование случай oozie. Взгляните на эти руководства Executing an Oozie workflow with Pig, Hive & Sqoop actions и Oozie workflow scheduler for Hadoop

источник

2014-09-12 02:31:03

Как назначить работу Hadoop условно?

ответ

Смежные вопросы