2016-12-09 5 views
0

Я хочу сохранить мою результирующую таблицу в текстовый файл csv или аналогичный, чтобы иметь возможность выполнять визуализацию с помощью RStudio.Как сохранить таблицу в sql pyspark?

Я использую pyspark.sql для выполнения некоторых запросов в настройке hadoop. Я хочу сохранить результат в hadoop, а затем скопировать результат на локальный диск.

myTable = sqlContext.sql("SOME QUERIES") 
myTable.show() # Show my result 
myTable.registerTempTable("myTable") # Save as table 
myTable.saveAsTextFile("SEARCH PATH") # Saving result in my hadoop 

Это возвращает это:
AttributeError: объект 'DataFrame' не имеет атрибута 'saveAsTextFile'

Это, как я обычно делаю это только при использовании pyspark т.е. не pyspark.sql.

А затем скопировать на локальный диск с

hdfs dfs –copyToLocal SEARCH PATH 

Может кто-нибудь мне помочь?

ответ

1

Вы можете использовать DataFrameWriter с одним из поддерживаемых форматов. Например, для JSON:

myTable.write.json(path) 
+0

Спасибо! Работа как надо :) Любая идея получить его как csv вместо этого? Я пробовал myTable.write.csv (путь), но это не сработало. Я использую искру 1.6. – TKN

+0

https://github.com/databricks/spark-csv –