2016-07-11 6 views
0

Я новичок в Spark, и я работаю над некоторыми попытками передачи данных. У меня проблема при выполнении случайного выбора строки из таблицы RDD в Spark..sample() Возвращает разные результаты с фиксированным семантиком случайных генераторов в Spark

Чтобы убедиться, что строка, которую я выбираю из таблицы RDD, будет одинаковой каждый раз (мне легче проверить правильность соединения в следующей таблице или нет), я предварительно задаю случайное изображение генератор. Я использую .sample(). Вот код:

val distinct_id = rddtable.select("id").distinct().sample(false, .00008, seed = 1453)

Случайное семя генератора устанавливается равным 1453. Однако

distinct_id.show()

покажет другой результат каждый раз, когда я запустить его.

Это очень странно с точки зрения моего опыта работы в R и Python. В R и Python, если я предварительно задаю семя, случайный генератор должен давать мне одинаковые результаты все время.

Благодарим за помощь.

ответ

1

Попробуйте отсортировать отдельный идентификатор rdd перед отбором проб. Может случиться так, что порядок id различен между каждым прогоном, а следовательно, и другим результатом выборки.

 Смежные вопросы

  • Нет связанных вопросов^_^