2016-12-08 3 views
2

Возможно ли установить установку искрового потока для отслеживания таблицы HBase и читать новые/обновленные строки в каждой партии? В блоге here говорится, что файлы HDFS попадают под поддерживаемые источники. Но они, похоже, используют следующий статический API:Spark Streaming: source HBase

sc.newAPIHadoopRDD(..) 

Я не могу найти документацию по этому вопросу. Можно ли передавать поток из hbase с использованием контекста искрового потока? Любая помощь приветствуется.

Спасибо!

ответ

1

ссылаемся выполняет следующие

  1. Читайте потоковые данные - превратить его в HBase положил, а затем добавить к HBase таблице. Пока это, его потоковая передача. Это означает, что ваш процесс приема пищи протекает.

  2. Детали расчета статистики, я думаю, это партия - это использует новый APIHadoopRDD. Этот метод будет обрабатывать часть чтения данных в виде файлов. В этом случае файлы из Hbase - вот причина следующих входных форматов

вал hBaseRDD = sc.newAPIHadoopRDD (CONF, classOf [TableInputFormat], classOf [org.apache.hadoop. hbase.io.ImmutableBytesWritable], classOf [org.apache.hadoop.hbase.client.Result])

Если вы хотите прочитать обновления в HBase как потоковые, то вы должны иметь ручку WAL (записывать вперед журналы) HBase на задней панели, а затем выполнять свои операции. HBase-indexer - хорошее место, чтобы начать читать любые обновления в HBase.

Я использовал hbase-indexer для чтения обновлений hbase на заднем конце и направил их в solr по мере их поступления. Надеюсь это поможет.