У меня есть сценарий, в котором мне нужно запустить два задания для вычисления двух разных корпусов и убедиться, что они записывают каждый n-грамм (и его оценку) в тот же самый редуктор (чтобы в будущем я мог читать данные локально, сравнивать и сравнивать два балла из двух корпусов). Напр. если задание J1
выполняет один из своих редукторов на машине M
и пишет n-грамм N
на месте, я бы хотел, чтобы работа J2
также записывала n-грамм N
на ту же машину M
.Запишите выходные данные двух разных заданий Hadoop на один и тот же набор редукторов
Я знаю, как вычислить статистику n-граммов для корпусов (для справки, можно обратиться к this публикации из Google). Я также определил свой пользовательский разделитель (беря хэш на основе первых двух слов в n-грамме). Теперь, как я могу убедиться, что два разных прогона одной и той же программы (на двух разных корпусах) в конечном итоге записывают соответствующий вывод в одни и те же редукторы?