Я играю с Hive в течение нескольких дней, но мне все еще трудно с разделом.Как я могу разбить таблицу с помощью HIVE?
Я записывал журналы Apache (формат Combine) в Hadoop в течение нескольких месяцев. Они хранятся в текстовом формате строка, распределяли по дате (через водослив): /журналы/гггг/мм/дд/чч/*
Пример:
/logs/2012/02/10/00/Part01xx (02/10/2012 12:00 am)
/logs/2012/02/10/00/Part02xx
/logs/2012/02/10/13/Part0xxx (02/10/2012 01:00 pm)
Дату в файле combined log имеет следующую этот формат [10/Feb/2012: 00: 00: 00 -0800]
Как создать внешнюю таблицу с разделом в Hive, использующую мой физический раздел. Я не могу найти хорошую документацию на разделе Hive. Я нашел родственный вопрос, таких как:
Если я загружаю мои журналы во внешней таблице с Улей, я не могу разделить со временем, так как это не хороший формат (Февраль < => 02). Даже если бы он был в хорошем формате, как мне преобразовать строку «10/02/2012: 00: 00: 00 -0800» в несколько каталогов «/ 2012/02/10/00»?
В конечном итоге я мог бы использовать скрипт свиньи для преобразования моих сырых журналов в таблицы улья, но в этот момент я должен просто использовать свиньи вместо улья, чтобы делать свои сообщения.
Таким образом, я бы сделал создание таблицы? и я бы сделал запрос на использование этого раздела? – zzarbi
См. Мои изменения в ответе. – Olaf
Мне нужно будет проверить, что я вернусь к вам, как только смогу – zzarbi