Я хочу читать несколько файлов, подсчитывать повторяющиеся строки, сортировать строки по количеству повторений, принимать 10 самых повторяющихся строк.Извлечение первых элементов из нескольких отсортированных разделов
lines = env.readTextFile("logs-dir")
tuples = lines.map(line -> Tuple2(line, 1))
aggregate = tuples.groupBy(0).sum(1)
sort = aggregate.sortPartition(1, Order.DESCENDING)
sorted.first(10).writeAsText("domains")
Проблема в том, что first-n является произвольным и возвращает случайные 10 первых элементов из всех разделов.
Есть ли способ выбрать отсортированные элементы первого-первого из всех разделов без уменьшения параллелизма до 1?