Я работаю над проблемой, когда у нас есть много разных событий, поступающих из разных источников, и эти события имеют 60% полей. Итак, с учетом сказанного, я изначально начал с создания отдельных таблиц для каждого события и теперь вижу, что между этими событиями может быть много событий и почти 60% полей данных. Я думаю о создании одной таблицы событий, которая будет иметь столбцы для всех события, и я собираюсь добавить столбец типа в этой таблице, который позволит моим искровым заданиям выбирать события, имеющие отношение к ним. Эта таблица является внешней таблицей Улья, а искровые задания будут загружать в нее данные, обрабатывая промежуточную таблицу json.Одна таблица, основанная на большом событии, или несколько таблиц? Рассмотрение дизайна таблицы улья
Я ищу информацию от экспертов, чтобы увидеть, возможна ли эта конструкция стола?
- Мой раздел будет как раздел (строка даты, тип клиента, типСобытия строка)
- я мог бы иметь дополнительный раздел региона, но еще не решили, что еще
- Данные хранятся в виде формат Паркет
- преимущество я вижу в том, когда новое событие вводится я просто добавить столбцы, относящиеся к нему и расширить свою искру рамки против добавления новой таблицы и прочее
Мой кластер имеет 6 DNs с 32Gig RA M на каждом и 5 ТБ дискового пространства каждый. Поскольку искра - наша основная инфраструктура обработки, меня беспокоит потребление ресурсов для всех заданий, которые будут выполняться? Что делать, если перегородки становятся слишком большими? Я тоже рассматриваю производительность и скорость?
Любые входы оцениваются.
Спасибо за ваш ценный вклад. Мы будем делать группировку/рейтинг/avg и т. Д. На этой таблице, и паркет имеет смысл в этом случае. Эта таблица представляет собой промежуточные и новые таблицы, которые будут иметь долю от того, что эта таблица будет создаваться в процессе нисходящего процесса в конвейере. Не существует элемента, определяющего уникальность события, поэтому разбиение на них сложно и добавить. Меня интересуют общие и конкретные поля. Наличие одной таблицы позволяет легко добавлять новые события. На данный момент у нас есть дата. Что может быть жестким в искрах, если я буду вводить новые столбцы? также можете ли вы прокомментировать ограничение паркета в улье? – skvyas