Не могли бы вы помочь мне найти Java API для перераспределения sales
dataset для N
паттернов равного размера? В равном размере я имею в виду равное количество строк.Spark dataset custom partitioner
Dataset<Row> sales = sparkSession.read().parquet(salesPath);
sales.toJavaRDD().partitions().size(); // returns 1
Возможного дубликате [Как определить пользовательские разметки для Спарка РДА разбиения одинакового размера, где каждый раздел имеет равное количество элементов?] (http://stackoverflow.com/questions/23127329/how-to-define-custom-partitioner-for-spark-rdds-of-equally-sized-partition-where) –
@BradleyKaiser no, Я уверен, что ответ плох по двум причинам: 1) ответ показывает код разделителя, но не указывайте, как передать пользовательский разделитель в RDD API, что на самом деле квест на 2) код разделителя находится в Scala, Scala API может отличаться от Java API –