Я создаю систему, которая должна обрабатывать огромное количество данных, и мне нужно, чтобы понять, как уменьшить оператор группы работаетповедения итератора в FLiNK reduceGroup
У меня есть набор данных, где я применяю GroupBy и впоследствии reduceGroup Как выполняет ли итератор, который передается функции reduceGroup? - это ленивый итератор, который загружает данные, когда они запрошены, или нетерпеливый, который готовит все данные в памяти при его создании?
я с помощью API SCALA в Флинка 0,9 milestone1
Хорошо, у меня есть еще один вопрос: есть ли какая-либо документация, описывающая, как эти методы работают или, по крайней мере, дает полезные советы? было бы неплохо иметь его. На самом деле у меня есть проблема и с поиском стандартной документации для flink , т. Е. У меня есть еще несколько сомнений относительно присоединения и сравнения ее с каким-то другим возможным решением. –
В своей [wiki] документации есть немного документации о внутренних функциях Flink (https: // cwiki .apache.org/слияния/дисплей/Flink/Флинка + Внутренности). Однако я не мог найти то, что описывает, как работают операторы обработки. Существует сообщение [blog post] (http://flink.apache.org/news/2015/03/13/peeking-into-Apache-Flinks-Engine-Room.html) о том, как объединения выполняются во Flink, которые могут быть полезно. –
Другое [сообщение в блоге] (http://flink.apache.org/news/2015/05/11/Juggling-with-Bits-and-Bytes.html) описывает управление памятью Flink и то, как она работает с двоичными данными. –