Я пытаюсь реализовать MapReduce программу, чтобы сделать wordcounts из 2 файлов, а затем сравнивая количество слов из этих файлов, чтобы увидеть, что наиболее часто встречающиеся слова ...MapReduce вопросы
я заметил, что после выполнения WordCount для файла 1, результаты, которые попадают в каталог «/ data/output1 /», внутри находятся 3 файла. - «_SUCCESS» - «_logs» - «part-r-00000» «part-r-00000» - это файл, содержащий результаты из файла word1 wordcount. Как заставить мою программу читать этот конкретный файл, если имя файла генерируется в реальном времени, не зная заранее имя файла?
Кроме того, для пар (ключ, значение) я добавил идентификатор к «значению», чтобы иметь возможность идентифицировать, какой файл и считать, что принадлежит этому слову.
public void map(Text key, Text value, Context context) throws IOException, InterruptedException {
Text newValue = new Text();
newValue.set(value.toString() + "_f2");
context.write(key, newValue);
}
на более позднем этапе, как мне «удалить» идентификатор, чтобы я мог просто получить «значение»?