2016-03-24 2 views
-1

Я пытаюсь загрузить около 2 миллионов записей в cassandra через искру. Spark имеет 4 исполнителя, а cassandra имеет 4 узла в кластере. Но для сохранения всех данных в cassandra требуется около 20 минут. Может ли кто-нибудь помочь мне сделать это быстрее.Spark Cassandra Write Performance

+1

Это всего лишь 1,6 тыс. Записей в секунду, что довольно медленно для 4 узлов C *. Вам нужно указать гораздо больше информации, хотя, если кто-то сможет вам помочь. Как вы читаете записи Какой код вы используете для написания Какого оборудования являются узлы ... – RussS

+0

На самом деле я использую Dataframe читать записи и все узлы имеют памяти для хранения 7G – franyfpk

+0

Может у пожалуйста, дайте я вообще знаю, что такое скорость записи для кластера из 4 узлов. – franyfpk

ответ

0

Ok, чтобы я мог видеть несколько проблем с конфигурацией

  1. Запуск Кассандру в VM для повышения производительности теста
  2. Спарк НЕ совмещаться (так что нет данных н.п. ...)

В общем, установка Cassandra внутри виртуальной машины не рекомендуется для теста производительности, это anti-pattern. Таким образом, ваша медленная скорость вставки - это нормально, не жалуйтесь, вы не можете попросить улучшить perf при использовании VM ...

 Смежные вопросы

  • Нет связанных вопросов^_^