У меня возникли проблемы с пониманием того, как Spark взаимодействует с хранилищем.Интеграция базы данных ключ-значение с Spark
Я хотел бы создать кластер Spark, который извлекает данные из базы данных RocksDB (или любого другого хранилища значений ключа). Тем не менее, в этот момент лучшее, что я могу сделать, это собрать весь набор данных из базы данных в память в каждом узле кластера (например, на карте) и построить RDD из этого объекта.
Что мне нужно сделать, чтобы извлечь только необходимые данные (например, Spark с HDFS)? Я читал о Hadoop Input Format и Record Readers, но я не совсем понимаю, что я должен реализовать.
Я знаю, что это довольно широкий вопрос, но я бы очень признателен за помощь, чтобы начать меня. Заранее спасибо.
ли это позволяют для каждого узла искрового только получать данные, которые он собирается обрабатывать? – PablodeAcero
Да. Я отредактировал ответ с запиской (спасибо за то, что вы заметили это сомнение). Увеличивая количество разделов, данные будут распределены между исполнителями. И каждый исполнитель получает только данные, необходимые для обработки. – code
Спасибо за ответ. Хотя это не тот ответ, который я искал, я обязательно попробую это решение. – PablodeAcero