2016-03-03 4 views
2

У меня есть Avro файл, который я читаю следующее:Plot данные SparkR DataFrame

avroFile <-read.df(sqlContext, "avro", "com.databricks.spark.avro") 

Этот файл как лат столбцов/Lon, но я не в состоянии построить их как обычный dataframe. Я также не могу получить доступ к столбцу с помощью оператора $.

ex.

avroFile$latitude 

Любая помощь в отношении файлов avro и эксплуатации на них с использованием R оценивается.

ответ

3

И вы не сможете построить его напрямую. SparkR DataFrame не совместим с функциями, которые ожидают ввода data.frame. Это даже не структура данных в строгом смысле слова, а просто рецепт обработки входных данных. Это материализуется только при выполнении действия.

Если вы хотите построить его, у вас будет collect это первое. Опасайтесь, что он извлекает все данные на локальном компьютере, так что обычно это то, чего вы хотите избежать при полном наборе данных.

2

Как указано выше, в настоящее время вы не можете запускать визуализацию R на распределенных SparkR DataFrames. Вы можете запускать их на локальных файлах данных. Вот один из способов вы можете сделать новый dataframe только с колоннами, которые вы хотите построить, а затем собрать случайную выборку из них в местный data.frame, которые вы можете построить из

latlong <- (avroFile, avroFile$latitude, avrofile$longitude) 
latlongsample <- collect(sample(latlong, FALSE, .1)) 
plot(latlongsample) 

подписи для метода проб это: образец (х, с заменой, фракцией, семенами)

6

Если вы хотите использовать ggplot2 для печати, попробуйте ggplot2.SparkR. Этот пакет позволяет принимать SparkR DataFrame непосредственно в качестве входного сигнала для вызова функции ggplot().

https://github.com/SKKU-SKT/ggplot2.SparkR

+0

Это не работает с Искрой 2,1 – smishra

+0

Как @smishra сказал, последняя версия ggplot2.sparkR поддерживает это SparkR 1.6.2, как указано в этом документе https://github.com/SKKU-SKT/ ggplot2.SparkR/блоб/ведущий/ОПИСАНИЕ –

 Смежные вопросы

  • Нет связанных вопросов^_^