2014-10-07 5 views
3

Разъем для искровой кассандры DataStax отлично подходит для взаимодействия с Cassandra через Apache Spark. С Spark SQL 1.1 мы можем использовать бережливый сервер для взаимодействия с Spark with Tableau. Поскольку Tableau может поговорить с Спарком, и Спарк может поговорить с Кассандрой, есть определенная возможность заставить Tableau поговорить с Кассандрой через Spark (или, скорее, Spark SQL). Я не могу понять, как это сделать. В идеале я бы хотел сделать это с помощью Spark Standalone cluster + кластера cassandra (т. Е. Без дополнительной настройки hadoop). Это возможно? Любые указатели оцениваются.Получение стола для разговоров с Spark и Cassandra

+0

Таблица только что анонсировала драйвер для Spark SQL http://www.tableausoftware.com/about/blog/2014/10/tableau-spark-sql-big-data-just-got-even-more-supercharged-33799 , В статье описывается, как запросить бета-версию. –

+0

Любая идея по получению искры + таблица для запроса кассандры? – ashic

+0

Поскольку Spark SQL может получить доступ к Cassandra, это должно быть возможно с помощью драйвера Tableau Spark SQL. Используете ли вы бета-драйвер? Если да, то какая конкретная проблема у вас есть? (или, еще лучше, скажите бета-программе, чтобы они могли ее исправить) –

ответ

3

У HiveThriftServer есть опция HiveThriftServer2.startWithContext(sqlContext), поэтому вы можете создать свой sqlContext, ссылающийся на C * и соответствующую таблицу/CF, а затем передать этот контекст на бережливый сервер.

Так что-то вроде этого:

import org.apache.spark.sql.hive.HiveContext 
import org.apache.spark.sql.catalyst.types._ 
import java.sql.Date 
val sparkContext = sc 
import sparkContext._ 
val sqlContext = new HiveContext(sparkContext) 
import sqlContext._ 
makeRDD((1,"hello") :: (2,"world") ::Nil).toSchemaRDD.cache().registerTempTable("t") 
import org.apache.spark.sql.hive.thriftserver._ 
HiveThriftServer2.startWithContext(sqlContext) 

Таким образом, вместо запуска thriftserver по умолчанию от искры вы можете просто обед вы cusotm один.