Не 100%, но ответ направления. В нормальной жизни HBase всегда относится к особым случаям.
Вот немного устарела, но на самом деле просто статья понять подход: http://hortonworks.com/blog/hbase-via-hive-part-1/
Так практически можно реализовать любой InputFormat
или OutputFormat
вам нужно. Но это связано с передачами MapReduce.
В принципе Spark всегда может полагаться на InputFormat, поэтому вопрос касается только вашего особого случая.
Здесь также изображена хорошая идея: http://www.slideshare.net/HBaseCon/ecosystem-session-3a Таким образом, моментальные снимки могут помочь вам занять столы, которые вам действительно нужны, а затем вы можете свободно использовать любое снаряжение для подключения Hive с HBase, если оно соответствует стандартам.
В общем, основная идея - настроить передачи, которые соединяют Hive с вашими данными HBase, чтобы они применили к вам фильтры необходимой версии. Это не так сильно зависит от версий, поскольку этот интерфейс довольно стабилен.
Надеюсь, это вам поможет.
Спасибо Shyam ... мы используем Hive 0.14 .... Я прошел через патч ... как я могу использовать его в своей системе ... Не могли бы вы поделиться шагами по поглощению патча в моей системе ... Заранее спасибо :) – dijin
Это означало бы «вернуть порт» патчу в вашу версию «hive», 0.14. Это требует некоторых знаний и мастеринга кодовой базы «hive», и вам нужно будет построить «hive» самостоятельно и использовать исправленные «jar (s)»/дистрибутивы. (Это не очень сложно, если вы знакомы с hadoop/java, но это потребует некоторого труда) – Shyam
спасибо Shyam за обновления ... Я в настоящее время использую Hortonworks в своем кластере ... Есть ли какой-либо патч из них. – dijin