Мы начали с кучи данных, хранящихся в файлах NetCDF. Оттуда был написан код Java для создания файлов последовательности из файлов NetCDF. Мы мало знаем о первоначальных намерениях кода, но нам удалось немного узнать о самих файлах последовательности. В конечном счете, мы пытаемся создать таблицы внутри Hive, используя эти файлы последовательности, но пока что неспособны сделать это на данный момент.Последовательный файл объектов в улье
Мы знаем, что ключи и значения в файлах последовательности хранятся как объекты, которые реализуют WritableComparable. Мы также можем создавать Java-код для итерации по всем данным в файлах последовательности.
Итак, что было бы необходимо, чтобы на самом деле заставить Hive правильно прочитать данные в объектах этих файлов последовательности?
Спасибо!
ОБНОВЛЕНИЕ: Причина, по которой так сложно описать, где у меня возникают проблемы, состоит в том, что я не обязательно получаю какие-либо ошибки. Hive просто просто читает файлы последовательности неправильно. При работе в Hadoop -Text команды на мой файл последовательности я получаю список объектов, как, например:
NetCDFCompositeKey @ 263c7e3f, NetCDFRecordWritable @ 4d846db5
Данные внутри самих этих объектов. Итак, в настоящее время с помощью @Tariq я считаю, что мне нужно сделать, чтобы действительно прочитать эти объекты, чтобы создать пользовательский InputFormat для чтения ключей и настраиваемого SerDe для сериализации и десериализации объектов?
Вы знаете, что Hive игнорирует ключи в файлах последовательностей и интерпретирует значения как строки таблицы, правильно? – Olaf
+1 для указания на то, что вне @Olaf. Что-то нужно иметь в виду при работе с SequenceFiles через Hive. – Tariq
Да, я слышал это. И я видел, что я мог бы использовать пользовательский InputFormat в качестве пользователя, упомянутого ниже. Я не совсем уверен, как это сделать. Я все еще учусь. –