У нас есть клиент BI, который каждый месяц генерирует около 40 миллионов строк в своих таблицах базы данных продаж, созданных в результате их транзакций продаж. Они хотят построить Sales Data Mart со своими историческими данными за 5 лет, что означает, что эта таблица фактов будет иметь около 240 миллионов строк. (40 х 12 месяцев х 5 лет)Как бороться с таблицей данных BIG DATA/Fact Table? (240 миллионов строк)
Это хорошо структурированные данные.
Это первый раз, когда я столкнулся с этим количеством данных, и мне потребовалось проанализировать вертикальные инструменты баз данных, такие как Inforbright и другие. Но при таком типе программного обеспечения простой запрос займет очень много времени.
Это взяло меня, чтобы взглянуть на Hadoop, но после прочтения некоторых статей я пришел к выводу, что Hadoop не самый лучший вариант (даже с Hive) для создания таблицы фактов, поскольку в моем понимании подразумевается работа с неструктурированными данные.
Итак, мой вопрос: какой был бы лучший способ построить этот вызов? , Я не ищу правильную технологию? Каким было бы лучшее время ответа на запрос, которое я мог бы получить в такой большой таблице фактов? .. или Я столкнулся с реальной стеной здесь, и единственный вариант - построить агрегированные таблицы?
Каковы ваши требования? Что вы хотите делать с данными (подробно!)? – usr
Мы хотим сделать OLAP-анализ: Например: какие 10 лучших продаваемых продуктов за эти 5 лет?, 10 лучших брендов ... и, конечно, более структурированные с большим количеством переменных, таких как ... Что такое топ-5 бренды, проданные за 5 лет между клиентами в возрасте от 20 до 30 лет в США? –
Спасибо, это было полезно. Насколько велики данные на диске в GB? Я предполагаю, что это стандартная звездная схема? И какие требования к длительности запроса существуют (секунды, минуты, часы)? – usr