2015-04-23 5 views
0

Я довольно новичок в Hadoop.анализ файла журнала в hcatalog regex или serde

Я пытаюсь загрузить файл журнала в HCatalog. Ниже приведен формат моего файла журнала.

Time: 2014-10-28 06:32:34Z 
UserID: arun 
GroupID: admin 
Page: welcome.aspx 
Message: Login successful 

Time: 2014-10-28 06:32:34Z 
UserID: arun 
GroupID: admin 
Page: main.aspx 
Message: menu load 
.. 
.. 

Нужно ли писать SerDe для его синтаксического анализа или это может быть достигнуто с помощью регулярных выражений?

ответ

0

Я верю, что вы хотите загрузить файлы внешнего журнала в таблицы Hive, в которых метастабильность улья управляется службой HCката.

Если это так, сначала проанализируйте записи исходного журнала для фиксированного разделителя, который поможет Hive проанализировать записи в нужное количество столбцов, в основном поможет вкладка (\ t).

Следующим вариантом может быть выполнение анализа столбцов из записей исходного журнала с использованием класса Hive RegexSerDe с соответствующим регулярным выражением.

Если синтаксический анализ регулярных выражений невозможен, то другим вариантом является создание пользовательского класса hive serde для анализа записей файла исходного журнала. С помощью пользовательского класса serde, Hive сможет идеально подобрать ячейки с разделителями в соответствующие столбцы внешней таблицы Hive.

Пожалуйста, обратитесь,

http://docs.aws.amazon.com/gettingstarted/latest/emr/getting-started-emr-load-data.html

Apache Hive regEx serde: data types

http://blog.cloudera.com/blog/2012/12/how-to-use-a-serde-in-apache-hive/