Я работаю с набором данных объективов для фильма, у меня есть матрица (m X n) идентификатора пользователя как номер строки и фильма как столбцы, и я применил технологию уменьшения размеров и матричную факторизацию, чтобы уменьшить мои разреженная матрица (m X k, где k < n). Я хочу оценить производительность с помощью алгоритма k-ближайшего соседа (не библиотеки, моего собственного кода). Я использую sparkR 1.6.2. Я не знаю, как разбить мой набор данных на данные обучения и проверить данные в sparkR. Я пробовал встроенную функцию R (образец, подмножество, CARET), но он несовместим с рамкой данных искры. любезно дать некоторое предложение для проведения перекрестной проверки и обучения классификатора, используя мою собственную функцию, написанную в sparkRКак выполнить проверку перекрестных ссылок в sparkr
0
A
ответ
0
Пакет sparklyr (https://spark.rstudio.com/) обеспечивает простую функциональность для разделения данных. Например, если у нас есть фрейм данных df
в Spark, мы могли бы создать его копию с compute()
, затем разделим его на sdf_partition()
.
df_part <- df %>%
compute("df_part") %>%
sdf_partition(test = 0.2, train = 0.8, seed = 2017)
df_part
бы тогда подключение к Спарк DataFrame. Мы могли бы использовать collect()
для копирования Spark DataFrame в рамку данных R.
Это довольно расплывчато, не могли бы вы воспроизвести воспроизводимый пример с образцами данных кода, который вы пробовали, и, в идеале, желаемых результатов? – Konrad