У меня есть таблица, содержащая 200 столбцов, из которых мне нужно около 50 столбцов, упомянутых в списке, и строки последних 24 месяцев в соответствии с меткой времени столбца.Как разделить задачи сокращения карты?
Я смущен тем, что входит в комплект, и что под редуктором?
Поскольку это просто трансформация, будет ли она иметь только фазу отображения, или фильтрация строк до последних 24 месяцев будет подпадать под редуктор? Я не уверен, что это точно использует , для чего был создан map-reduce.
Я использую python с потоком hadoop.