Я пытаюсь записать данные в таблицы Cassandra, используя Spark на Scala. Иногда задача искры прерывается между ними и есть частичная запись. Отскакивает ли Spark частичная запись при первом запуске новой задачи.Spark Job для вставки данных в Cassandra
1
A
ответ
0
Нет, но если я прав, вы можете просто переработать свои данные. Что будет перезаписывать частичную запись. При написании в Cassandra используется некоторое обновление (upsert), когда вы пытаетесь вставить данные с одним и тем же основным ключом.
2
Нет. Искры (и Кассандра, если на то пошло) не вставляют стиль фиксации, основанный на всей задаче. Это означает, что ваши записи должны быть идемпотентными, иначе вы можете столкнуться со странным поведением.
Любые входные данные о том, как сделать их идемпотентными? Я столкнулся с проблемами с дублирующимися записями в таблице cassandra с неудачными задачами и перезапуском задачи с самого начала. –
Привет всем, Любые входы на этом? –
убедитесь, что вы не писали от чего-то, что изменяется при повторных попытках. Будьте осторожны с не-идемпотентными операциями (добавление в списки и карты). Основные идемпотентные вещи. Вы пишете должны быть одинаковыми независимо от того, сколько раз код выполняет. – RussS