В настоящее время у нас есть процесс потока данных, где у нас есть GroupByKey
, но DoPar
после того, как группа получает слишком много значений за ключ, и мы хотели знать, есть ли хорошее решение для этого , Из того, что я могу сказать, нет способа установить максимальное количество значений для каждого окна.Ограничение количества значений для каждой клавиши
Сейчас мы рассматриваем 3 варианта:
- Меньшие Окна - мы думаем, что, возможно, все еще есть проблемы с этим, так как события могут прийти в кластер вместе со временем.
- Добавление случайного значения в каждую клавишу для разделения ключей вверх - это также не идеально, потому что, когда у нас меньше событий, мы будем иметь слишком мало значений для каждого ключа. Также мы не можем настроить количество разделов, когда число событий увеличивается экспоненциально.
- Некоторое причудливое срабатывание или использование объединителя - возможно, лучшее решение, но не знаете, как это сделать.
Существует ли стандартный способ или наилучшая практика для этого?