2016-08-29 2 views
2

Что такое простой способ написать Паркет Формат в HDFS (с помощью Java API) по непосредственно создание Паркетная схемы в виде Pojo, без использования avro и MR?Написать формат Паркет в HDFS с помощью Java API с с использованием Avro и MR

Образцы, которые я нашел, устарели и используют устаревшие методы, также использует один из Avro, искра или MR.

ответ

4

Фактически, нет достаточного количества образцов для чтения/записи файлов паркета Apache без помощи внешнего фреймворка.

Ядром паркет библиотека паркет колонки, где вы можете найти некоторые тестовые файлы чтения/записи непосредственно: https://github.com/apache/parquet-mr/blob/master/parquet-column/src/test/java/org/apache/parquet/io/TestColumnIO.java

Вы тогда просто нужно использовать ту же функциональность с файлом HDFS. Вы можете следить за этот SOW вопрос для этого: Accessing files in HDFS using Java

ОБНОВЛЕНО: реагировать на устаревшие части API: AvroWriteSupport следует заменить AvroParquetWriter и проверить ParquetWriter это не рекомендуется и может безопасно использоваться.

С уважением,

Лоик

+0

Спасибо за вашу помощь. Я думаю, что предоставленная ссылка немного сложна для понимания, может быть, потому что я новичок в этом. Итак, я пошел с австро-схемой, но опять же есть классы, которые устарели, «AvroWriteSupport» и «ParquetWriter». Какими будут альтернативы для вышеуказанных классов. Код примера получен из [здесь] (http://blog.cloudera.com/blog/2014/05/how-to-convert-existing-data-into-parquet/) – Krishas

+1

Вы можете использовать построитель для создания объекта записи вместо использования конструктора. – deepak