2016-04-08 5 views
-1

Допустим, у нас есть данные JSON, и мы хотим генерировать некоторые результаты для бизнес-пользователей. Так что кажется, что это хороший подход?
Загрузка данных в куст из HDFS, а затем анализ его с помощью свиньи с помощью hcatalog. У меня вопрос ниже.
Q. Можно ли загружать данные из hcatalog и анализировать их на свинью, будет ли это накладные расходы на производительность по сравнению с прямым чтением данных от свиньи, удерживая их в HDFS.Загрузите данные в улей, а затем проанализируйте их с помощью свиньи с помощью hcatalogue. Кажется ли это хорошей идеей?

ответ

0

Я лично предпочел бы использовать ETL, используя Pig.In ваш случай Данные JSON могут быть загружены с помощью JsonLoader и могут быть сохранены с помощью JsonStorage. Поэтому я бы загрузил данные с помощью Jsonloader, а затем сохранил их в csv.Then я бы использовал Улей проанализировать эти данные.

JSON нагрузки

http://joshualande.com/read-write-json-apache-pig/

Alternative мы можем использовать твиттер elephantbird погрузчик JSON

http://eric.lubow.org/2011/hadoop/pig-queries-parsing-json-on-amazons-elastic-map-reduce-using-s3-data/