rdd

    1зной

    1ответ

    У меня есть простой вопрос, предположу, что у меня есть 2 РД: RDD1: [a,b,b,c,c,c,d] RDD2:[a,b,c,d] и я хочу, чтобы узнать, сколько а, Ь, с, d есть такие, что возвращаемые результаты должны быть что-

    5зной

    3ответ

    Обратите внимание: я должен использовать sc.textFile, но я бы принял любые другие ответы. То, что я хочу сделать, это просто добавить имя файла, который обрабатывается в РДУ .... некоторые вещи, как:

    13зной

    5ответ

    мне нужно разбить RDD на 2 части: 1 часть, которая удовлетворяет условию; другая часть, которой нет. Я могу сделать filter дважды на оригинальном RDD, но это кажется неэффективным. Есть ли способ, кот

    4зной

    1ответ

    RDD имеет линию и, следовательно, не существует до тех пор, пока не будет выполнено действие, если оно выполнено; поэтому, если у меня есть метод, который выполняет многочисленные преобразования на RD

    2зной

    1ответ

    У меня есть RDD, который я пытаюсь сериализовать, а затем реконструировать, десериализируя. Я пытаюсь понять, возможно ли это в Apache Spark. static JavaSparkContext sc = new JavaSparkContext(conf);

    2зной

    2ответ

    При запуске моей программы локально на 16Gb MBP я получаю следующие вхождения: 15/04/10 20:07:50 INFO BlockManagerMaster: Updated info of block rdd_12_3 15/04/10 20:07:50 INFO BlockFetcherIterator$Ba