Я пишу программу spark/scala для чтения в ZIP-файлах, разархивировать их и записать содержимое в набор новых файлов. Я могу заставить это работать для записи в локальную файловую систему, но задавался
В искры я хочу, чтобы иметь возможность параллелизировать несколько кадров данных. Метод, который я пытаюсь, заключается в том, чтобы вложить данные в родительский фреймворк, но я не уверен в синтакси
У меня Spark 2.1.0 работает на кластере с N подчиненных узлов. Каждый узел имеет 16 ядер (8 ядер/процессор и 2 процессора) и 1 графический процессор. Я хочу использовать процесс карты для запуска ядра