2017-01-05 9 views
1

Есть ли способ, что мы можем загрузить RC файлы с разбиениями хранятся в S3 в pyspark Dataframe 2.0.0Read RC Файл pyspark 2.0.0 из S3 с перегородками

+1

Что такое файл RC? – user7337271

+0

Это один из форматов столбчатых файлов, который используется для хранения данные лучше, чем в формате csv – braj259

ответ

0

Я выяснял способ загрузки файлов конфигурации (от s3) в pyspark.

from pyspark.sql import HiveContext 
spark = SparkSession.builder.master("yarn").appName("elevateDailyJob").enableHiveSupport().getOrCreate() 
sc = spark.sparkContext 
sqlContext = HiveContext(sc) 
sqlContext.sql("CREATE EXTERNAL TABLE table1(col1 string,col2 string,col3 string,)PARTITIONED BY (DAYSERIAL_NUMERIC string) STORED AS RCFILE LOCATION 's3://my-databucket/my_file_rc/'") 
df = sqlContext.sql("select * from table1") 

вышеуказанный может быть запущен с использованием функции искра-submit. Примечание: вам нужно включить hivesupport для EMR версии 5.x на подопечных (как я сделал в 2-й строке кода.