Для исследовательского проекта я попытался отсортировать элементы в RDD. Я сделал это в двух разных подходах. В первом методе я применил функцию mapPartitions() на RDD, чтобы он сортировал содержимое
Мне нужно сопоставить таблицу, в которой написана история использования приложения. Таблица получила эти кортежи: <AppId,date,cpuUsage,memoryUsage>
<AppId,date,cpuUsage,memoryUsage>
<AppId,date,cpuU
Есть две таблицы. Первая таблица имеет записи с двумя полями book1 и book2. Это id книг, которые обычно читаются вместе, попарно. Вторая таблица имеет столбцы books и readers этих книг, где books и re
Когда я создаю RDD с помощью sc.textFile в Спарк, я получаю результат, как: org.apache.spark.rdd.RDD[String] = file:///home/cloudera/data MapPartitionsRDD[133] at textFile at <console>:23
Что делает
У меня большая проблема! У меня есть RDD[(Int, Vector)], где Int - это своего рода ярлык. Например: (0, (a,b,c));
(0, (d,e,f));
(1, (g,h,i))
и т.д ... Теперь мне нужно использовать этот RDD (я наз
У меня есть искровая программа, которая по существу делает это: def foo(a: RDD[...], b: RDD[...]) = {
val c = a.map(...)
c.persist(StorageLevel.MEMORY_ONLY_SER)
var current = b
for