Я новичок в Spark, и я работаю над некоторыми попытками передачи данных. У меня проблема при выполнении случайного выбора строки из таблицы RDD в Spark..sample() Возвращает разные результаты с фиксированным семантиком случайных генераторов в Spark
Чтобы убедиться, что строка, которую я выбираю из таблицы RDD, будет одинаковой каждый раз (мне легче проверить правильность соединения в следующей таблице или нет), я предварительно задаю случайное изображение генератор. Я использую .sample()
. Вот код:
val distinct_id = rddtable.select("id").distinct().sample(false, .00008, seed = 1453)
Случайное семя генератора устанавливается равным 1453. Однако
distinct_id.show()
покажет другой результат каждый раз, когда я запустить его.
Это очень странно с точки зрения моего опыта работы в R и Python. В R и Python, если я предварительно задаю семя, случайный генератор должен давать мне одинаковые результаты все время.
Благодарим за помощь.