2016-09-07 5 views
1

У меня есть кластер на AWS, где я установил H2O, Sparkling Water и H2O Flow для машинного обучения для множества данных.Прочтите файлы JSON из потока Spark в H2O

Теперь эти файлы входят в формат JSON из потокового задания. Предположим, что они размещены в S3 в папке с именем streamed-data.

От искры, используя SparkContext, я легко мог читать их в один раз, чтобы создать RDD, как (это Python, но это не важно):

sc = SparkContext() 
sc.read.json('path/streamed-data') 

Это читает их всех, создает меня в RDD и очень удобен.

Теперь я хотел бы использовать возможности H2O, поэтому я установил его в кластере вместе с другим упомянутым программным обеспечением.

С учетом потока H2O моя проблема заключается в отсутствии парсера JSON, поэтому мне интересно, могу ли я импортировать их в H2O в первую очередь, или если я могу что-то сделать, чтобы обойти проблему.

ответ

1

При запуске Sparkling Water вы можете легко конвертировать RDD/DF/DS в H2O. Что-то вроде этого (Scala, Python будет выглядеть подобное) должны работать:

val dataDF = sc.read.json('path/streamed-data') 
val h2oContext = H2OContext.getOrCreate(sc) 
import h2oContext.implicits._ 
val h2oFrame = h2oContext.asH2OFrame(dataDF, "my-frame-name") 

С этого момента вы можете использовать кадр из уровня кода и/или от FlowUI.

Здесь можно найти дополнительные примеры for Python и здесь for Scala.

 Смежные вопросы

  • Нет связанных вопросов^_^