«MapReduce Design Patterns» имеет шаблон для поиска отдельных записей в наборе данных. Это алгоритм:Выбор отдельных записей в Hadoop и использование объединителя
map(key, record):
emit record, null
reduce(key, records):
emit key
На странице 66 говорится:
объединителя всегда можно использовать в этой схеме и может помочь, если существует большое количество дублей.
фаза карты испускает запись и NullWritable
(что не написано на проводе). Что Combiner
пытается уменьшить? Нет записи для сокращения.