У меня есть кластер на AWS, где я установил H2O, Sparkling Water и H2O Flow для машинного обучения для множества данных.Прочтите файлы JSON из потока Spark в H2O
Теперь эти файлы входят в формат JSON из потокового задания. Предположим, что они размещены в S3 в папке с именем streamed-data
.
От искры, используя SparkContext, я легко мог читать их в один раз, чтобы создать RDD, как (это Python, но это не важно):
sc = SparkContext()
sc.read.json('path/streamed-data')
Это читает их всех, создает меня в RDD и очень удобен.
Теперь я хотел бы использовать возможности H2O, поэтому я установил его в кластере вместе с другим упомянутым программным обеспечением.
С учетом потока H2O моя проблема заключается в отсутствии парсера JSON, поэтому мне интересно, могу ли я импортировать их в H2O в первую очередь, или если я могу что-то сделать, чтобы обойти проблему.