Я новичок в hadoop и Big data Technologies. Мне нравится конвертировать файл паркета в файл avro и читать эти данные. Я ищу на нескольких форумах и предложил использовать AvroParquetReader.Как преобразовать файл паркета в файл Avro?
AvroParquetReader<GenericRecord> reader = new AvroParquetReader<GenericRecord>(file);
GenericRecord nextRecord = reader.read();
Но я не уверен, как включить AvroParquetReader. Я не могу импортировать его вообще.
Я могу прочитать этот файл, используя искровую оболочку, и может преобразовать его в JSON , а затем JSON можно преобразовать в avro. Но я ищу более простое решение для .
OP специально задает более простое решение, чем искра (оболочка). – javadba
Или OP просит более простое решение, чем использование AvroParquetReader для перехода от Parquet к JSON, а затем JSON в Avro. –
Я понимаю ваше дело, но если вы сослались на весь вопрос об использовании AvroParquetReader и/или в контексте преобразования Spark-shell из Parquet в Avro с JSON в качестве посредника, то с использованием DataFrames для чтения из Parquet и сохранения в Avro более простое решение. Я могу понять контекст, что, возможно, вопрос заключается в том, как конвертировать из Parquet в Avro без использования Spark. Но поскольку этот вопрос отмечен Apache-искрами, я не думаю, что было бы необоснованным предоставить более простое решение, используя Spark. –