Я пытаюсь загрузить около 2 миллионов записей в cassandra через искру. Spark имеет 4 исполнителя, а cassandra имеет 4 узла в кластере. Но для сохранения всех данных в cassandra требуется около 20 минут. Может ли кто-нибудь помочь мне сделать это быстрее.Spark Cassandra Write Performance
-1
A
ответ
0
Ok, чтобы я мог видеть несколько проблем с конфигурацией
- Запуск Кассандру в VM для повышения производительности теста
- Спарк НЕ совмещаться (так что нет данных н.п. ...)
В общем, установка Cassandra внутри виртуальной машины не рекомендуется для теста производительности, это anti-pattern. Таким образом, ваша медленная скорость вставки - это нормально, не жалуйтесь, вы не можете попросить улучшить perf при использовании VM ...
Это всего лишь 1,6 тыс. Записей в секунду, что довольно медленно для 4 узлов C *. Вам нужно указать гораздо больше информации, хотя, если кто-то сможет вам помочь. Как вы читаете записи Какой код вы используете для написания Какого оборудования являются узлы ... – RussS
На самом деле я использую Dataframe читать записи и все узлы имеют памяти для хранения 7G – franyfpk
Может у пожалуйста, дайте я вообще знаю, что такое скорость записи для кластера из 4 узлов. – franyfpk