Я новичок в этой концепции и все еще учась. Я имею в общей сложности 10 ТБ json-файлов в AWS S3, 4 экземпляра (m3.xlarge) в AWS EC2 (1 мастер, 3 сотрудника). В настоящее время я использую искру с python на Apache Zeppelin.Как увеличить производительность данных?
Я читаю файлы со следующей командой;
hcData=sqlContext.read.option("inferSchema","true").json(path)
В настройках интерпретатора ZEPPELIN:
master = yarn-client
spark.driver.memory = 10g
spark.executor.memory = 10g
spark.cores.max = 4
занимает 1 минуту, чтобы прочитать 1GB примерно. Что я могу сделать больше для более эффективного чтения больших данных?
- Должен ли я делать больше по кодированию?
- Должен ли я увеличивать экземпляры?
- Должен ли я использовать другую платформу для ноутбука?
спасибо.
Большое вам спасибо. Это был для меня очень объяснительный ответ. Таким образом, для 10 ТБ данных должно быть достаточно 3 рабочих и 1 мастер (каждый m3.xlarge), верно? –
На самом деле это зависит от того, что вы хотите сделать. Для простой статистики это должно быть хорошо с некоторой помощью промежуточной агрегации. Для интенсивного машинного обучения, возможно, нет. –