У меня есть таблица вроде этого:Как я могу получить данные группы и собирать результат на карте в Hive?
id | job | school |
1 | programmer | school1 |
2 | programmer | school1 |
3 | programmer | school2 |
4 | pm | school3 |
5 | pm | school2 |
6 | pm | school3 |
Я хочу сделать следующее:
- Группа по работе
- Получить список школ и подсчитывать, как это [(school1, 2), (school2, 1)] список
- школа порядок по количеству, так что не может быть [(school1, 1), (school1, 2)]
Результат примера:
programmer | [(school1, 2), (school2, 1)]
pm | [(school3, 2), (school2, 1)]
но не сортировать collect_set – roger
хмм .. выход уже отсортированных по столбцам работы .. –