SparkSQL - Читать паркетный файл непосредственно

Я проникаю от Impala в SparkSQL, используя следующий код, чтобы прочитать таблицу:SparkSQL - Читать паркетный файл непосредственно

my_data = sqlContext.read.parquet('hdfs://my_hdfs_path/my_db.db/my_table')

Как вызвать SparkSQL выше, так что он может вернуть что-то вроде:

'select col_A, col_B from my_table'

источник

2016-12-21 Edamame

После создания Dataframe из паркетного файла вам необходимо зарегистрировать его в качестве таблицы temp для запуска sql queries.

val sqlContext = new org.apache.spark.sql.SQLContext(sc) 

val df = sqlContext.read.parquet("src/main/resources/peopleTwo.parquet") 

df.printSchema 

// after registering as a table you will be able to run sql queries 
df.registerTempTable("people") 

sqlContext.sql("select * from people").collect.foreach(println)

источник

2016-12-21 02:14:28

Собирается ли сбор (или хорошая идея)? Потому что, если данные большие, мы не хотим собирать все драйверу? – Edamame

его просто пример использования sql. Это зависит от вас, как вы хотите его использовать. вы можете изменить запрос или сделать .take() также получить требуемые данные по драйверу –

Мы можно запустить SQL непосредственно на файлы, такие как JSON, ORC, паркета и CSV без создания таблицы.

//This Spark 2.x code you can do the same on sqlContext as well 
val spark: SparkSession = SparkSession.builder.master("set_the_master").getOrCreate 

spark.sql("select col_A, col_B from parquet.`hdfs://my_hdfs_path/my_db.db/my_table`") 
    .show()

источник

2017-03-09 06:30:33 mrsrinivas

Я вижу эту ошибку «Файл не найден. Возможно, базовые файлы были обновлены. Вы можете явно аннулировать кеш в Spark by выполнение команды «REFRESH TABLE tableName» в SQL или путем воссоздания используемого набора данных/DataFrame ». Как это разрешить? – Passionate

Не помогает, если я делаю spark.sqlContext(). SetConf ("spark.sql.parquet.cacheMetadata", "false"); – Passionate

Работает! Просто замените 'hdfs: // my_hdfs_path/my_db.db/my_table' путь к файлу. :) – Cherry

SparkSQL - Читать паркетный файл непосредственно

ответ

Смежные вопросы