У меня есть пользовательский доступ к серверу hadoop/cluster, содержащему данные, которые хранятся исключительно в секционированных таблицах/файлах в hive (avro). Мне было интересно, могу ли я выполнять mapreduce с помощью python mrjob на этих таблицах? До сих пор я тестировал mrjob локально в текстовых файлах, хранящихся на CDH5, и меня впечатляет простота разработки.Могу ли я использовать библиотеку python mrjob для разделенных таблиц улей?
После некоторых исследований я обнаружил, что есть библиотека под названием HCatalog, но насколько я знаю, она недоступна для python (только Java). К сожалению, у меня не так много времени, чтобы изучить Java, и я хотел бы придерживаться Python.
Знаете ли вы, что любой способ запустить mrjob на хранящихся данных?
Если это невозможно, существует ли способ передать написанный питоном код mapreduce для улья? (Я бы предпочел не загружать файлы python mapreduce в улей)
Mr.Job в настоящее время не работает с Avro файлами. Если вы хотите использовать Mr.Job, вы можете сначала отключить данные. У Майкла Нолла есть хороший блог-блог для Avro Tools: http://www.michael-noll.com/blog/2013/03/17/reading-and-writing-avro-files-from-the-command-line/ –