2017-02-13 17 views
0

У меня есть таблица, содержащая 200 столбцов, из которых мне нужно около 50 столбцов, упомянутых в списке, и строки последних 24 месяцев в соответствии с меткой времени столбца.Как разделить задачи сокращения карты?

Я смущен тем, что входит в комплект, и что под редуктором?

Поскольку это просто трансформация, будет ли она иметь только фазу отображения, или фильтрация строк до последних 24 месяцев будет подпадать под редуктор? Я не уверен, что это точно использует , для чего был создан map-reduce.

Я использую python с потоком hadoop.

ответ

0

Итак, у вас есть таблица с 200 столбцами (скажем T), отдельный список записей (например, L), которые нужно выбрать из T и с последними 24-часовыми (из метки времени в T).

MapReduce, mapper дает записи из T последовательно. Прежде чем ваш картограф попадет в map(), I.e в setup() поместит блок кода в считывание из L и сделает его удобным (используйте допустимую структуру данных для хранения списка данных). Теперь ваш код должен содержать две проверки/условия: 1) если запись из Т содержит/совпадает с L. Если это так, тогда проверьте 2), если данные находятся в пределах 24 часов.

Выполнено. Ваш результат - то, что вы ожидали. Нет, здесь требуется редуктор, по крайней мере, для этого.

Счастливый Mapreducing.