2017-01-21 7 views
1

Пытается использовать Google DataFlow Java SDK, но для моих учетных записей мои входные файлы являются .parquet файлами.Google DataFlow & Reading Parquet файлы

Не удалось найти какие-либо функциональные возможности для чтения паркета в конвейере DataFlow в качестве источника ограниченных данных. Как я понимаю, я могу создать кодер и/или потопить немного как AvroIO на основе Parquet Reader.

Кто-нибудь может посоветовать, как наилучшим образом его реализовать? или указать мне ссылку на How-to \ examples?

Цените свою помощь!

ответ

3

Вы можете найти прогресс в ParquetIO (из коробки functinonality, как вы назвали его) в https://issues.apache.org/jira/browse/BEAM-214.

В то же время, она должна быть возможность читать Паркетные файлы с помощью Hadoop FileInputFormat в обоих Beam и DataFlow SDKs:

Beam: https://github.com/apache/beam/tree/master/sdks/java/io/hdfs

DataFlow: https://github.com/GoogleCloudPlatform/DataflowJavaSDK/tree/master/contrib/hadoop