У меня есть несколько сумок, и я хочу вычислить попарные сходства между сумками.Apache Pig - inested FOREACH по тому же отношению
sequences = FOREACH raw GENERATE gen_bag(logs);
Соотношение описывается следующим образом:
sequences: {t: (type: chararray, value:charray)}
Сходство вычисляется с помощью UDF Python, который принимает два пакета в качестве аргументов. Я попытался сделать вложенный foreach по переменной последовательностей, но я не могу перебрать цикл по одному и тому же отношению дважды. Я также пытался определить последовательности дважды, но я не могу получить доступ к копии в foreach. Я также не знаю, как я могу создать структуру данных, которая позволяет мне делать такие вещи. Как я могу это сделать?