Итак, я пытаюсь кодировать FP-Tree алгоритм в MapReduce парадигме, для создания частого элемента набора списка, у меня есть следующая проблема:Несколько входных файлов В одном классе карт Hadoop?
Вход:
FILE1.TXT (Содержит все операции)
123 452 221 12
45 76 987
77 76 123 354
[Each Line contains items Bought in one Transaction]
file2.txt (содержит элементы, которые покупаются в порядке убывания)
12 123
6 221
5 77
4 354
[Count] [Item Id]
Выход:
output.txt
123 221
123 77 354
[2nd transaction is eliminated]
товары в соответствии с их подсчета взяты в (по убыванию), другие удаляются
Можно ли принимать как FILE1.TXT и Файл2.txt в один класс сопоставления? потому что это решит мою проблему
Или есть ли способ выполнить эту операцию по-другому?
Любая помощь приветствуется.
распределенного кэша будет полезен только тогда, когда один из размеров файлов мало, который может поместиться внутри RAM. – Azim