У нас было 5 лет данных в кластере, и мы ежедневно загружаем данные. Данные, которые ежедневно добавляются, могут содержать повторяющиеся данные, частично измененные данные и т. Д.Обработка инкрементных данных - Hadoop
1. Как обращаться с дублирующимися данными - следует обрабатывать как часть высокоуровневых программных интерфейсов свиньи, улья и т. Д. Или любых других альтернатив.
- Скажите, есть ли указ, чтобы узнать, что изменилось между двумя записями, заданными ключом, чтобы узнать строку.
Каков наилучший способ моделирования данных с использованием компонентов системы eco system.
спасибо за быстрый ответ. Мы хотели захватить, если изменилось поле, связанное с записью, и информировать заинтересованные стороны об этом изменении. – Nag