Я начал работу над аналитическим проектом. Варианты использования - это понимание моделей покупки клиентов и источников данных, таких как веб-журналы, реляционные базы данных (в которых хранится мастер продукта, мастер-клиент). Команда реляционной базы данных, команда hadoop совершенно другая. Во время обсуждения архитектуры обсуждалось, что основные данные (Product, Customer) будут одноразовой загрузкой, а инкрементные обновления будут ежедневным sqoop от oracle до hdfs и использование Hive для создания текущего представления (со всем последним продуктом изменения). Начинается с сведений о продукте.Работа с основными данными Обновления в hadoop
- Начальный уровень продукта составляет около 10G на стороне Oracle.
- Суточный прирост варьируется от 5 МБ до 100 МБ.
Основываясь на моем понимании, создание таких небольших файлов было бы нагрузкой на узел имен в долгосрочной перспективе.
Как никто сталкивается с таким решением и как вы его обрабатываете?