2014-12-31 2 views
0

У меня есть таблица свиньи (так называемый table1), содержащее множество дубликатов и более одного столбца (так называемый col1, col2)Pig получить различные строки с числом

Вот простой пример

| col1 | col2 | 
----------------- 
| 111 | bbb | 
| 111 | ccc | 
| 111 | bbb | 
| 222 | bbb | 

Я бы хотел бы получить четкие линии с графом их появления (например, используя Uniq -c в Баше), так что результат будет:

| count |col1 | col2 | 
----------------- 
| 2 | 111 | bbb | 
| 1 | 111 | ccc | 
| 1 | 222 | bbb | 

что такое синтаксис для такой команды?

ответ

2

Пожалуйста, попробуйте ниже:

A = LOAD 'data'....; 
GR = GROUP A by (col1,col2); 
CNT = FOREACH GR GENERATE FLATTEN (group) AS (col1,col2) , COUNT(A) as cnt_col; 
dump CNT; 

 Смежные вопросы

  • Нет связанных вопросов^_^