2009-11-10 3 views
6

Я создаю задание mapdo для Hadoop (0.20.1), которое использует HBase (0.20.1) как источник данных, так и приемник данных. Я хотел бы написать работу в Python, которая потребовала от меня использовать hasoop-0.20.1-streaming.jar для потоковой передачи данных в сценарии Python и из них. Это прекрасно работает, если источник данных/приемник - файлы HDFS.Hadoop mapreduce streaming from HBase

Поддерживает ли поддержка Hadoop от/до HBase для mapreduce?

+0

ли вы взглянули на Hbase + Кафка + Спарк Streaming интеграции? – Mike

ответ

1

Это похоже на то, что я хочу, но это не часть распределения Hadoop. Любые другие предложения или комментарии по-прежнему приветствуются.

http://github.com/wanpark/hadoop-hbase-streaming

+0

У вас есть предложения по моему вопросу - http://stackoverflow.com/questions/10953731/calculate-tf-idf-of-documents-using-hbase-as-the-datasource – JHS