1

Я пытаюсь записать данные в таблицы Cassandra, используя Spark на Scala. Иногда задача искры прерывается между ними и есть частичная запись. Отскакивает ли Spark частичная запись при первом запуске новой задачи.Spark Job для вставки данных в Cassandra

ответ

0

Нет, но если я прав, вы можете просто переработать свои данные. Что будет перезаписывать частичную запись. При написании в Cassandra используется некоторое обновление (upsert), когда вы пытаетесь вставить данные с одним и тем же основным ключом.

2

Нет. Искры (и Кассандра, если на то пошло) не вставляют стиль фиксации, основанный на всей задаче. Это означает, что ваши записи должны быть идемпотентными, иначе вы можете столкнуться со странным поведением.

+0

Любые входные данные о том, как сделать их идемпотентными? Я столкнулся с проблемами с дублирующимися записями в таблице cassandra с неудачными задачами и перезапуском задачи с самого начала. –

+0

Привет всем, Любые входы на этом? –

+0

убедитесь, что вы не писали от чего-то, что изменяется при повторных попытках. Будьте осторожны с не-идемпотентными операциями (добавление в списки и карты). Основные идемпотентные вещи. Вы пишете должны быть одинаковыми независимо от того, сколько раз код выполняет. – RussS