Пакетный слой: как Spark считывает и обрабатывает новые данные из основных данных?

Я строю лямбда-архитектуру, я закодировал потоковый слой, и теперь я делаю пакетный слой. Для этой цели я использую Spark 2 в качестве пакетного процессора и HDFS в качестве основных данных.Пакетный слой: как Spark считывает и обрабатывает новые данные из основных данных?

Для чтения данных из HDFS, я написал следующий фрагмент кода:

 SparkSession spark = SparkSession 
       .builder() 
       .appName("JavaWordCount") 
       .master("local") 
       .config("spark.sql.warehouse.dir", "file:///c:/tmp/spark-warehouse") 
       .getOrCreate(); 

     JavaRDD<String> msg = spark.read().textFile("HDFS://mypath/*").javaRDD();

Однако, с этим кодом, новые данные, вставленные в HDFS после Спарка запущенных не читаются. Интересно, как я могу это сделать?

Есть ли только решение с Structured streaming (http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html) или есть другое решение?

источник

2016-12-20 Yassir S

Да, на мой взгляд, Spark 2.x Structure Streaming позволяет это делать.

Я бы посоветовал вам посмотреть эту презентацию с Саммита Spark 2017: https://www.youtube.com/watch?list=PLTPXxbhUt-YVEyOqTmZ_X_tpzOlJLiU2k&v=IJmFTXvUZgY

источник

2017-03-21 08:59:23

Пакетный слой: как Spark считывает и обрабатывает новые данные из основных данных?

ответ

Смежные вопросы