Мы сталкиваемся с проблемами с вычислением статистики Impala на определенном столе. Подробности Issue перечислены ниже:Вычислить статистику на Impala 1.2.4
Выпуск
Иногда статистика Compute заявление Impala занимает слишком много времени, чтобы закончить или просто не будет работать на определенной таблице
Таблица Подробности
Размер: 45 ГБ Паркет с мгновенным сжатием
Нет записей: 4,1 млрд.
Перегородка разделена на две колонны.
Наблюдение Сделано
Мы наблюдаем различное поведение с импал каждый раз, когда мы запускаем вычислительную статистику по данной таблице. Некоторое время он заканчивается через 8-10 минут, а в других случаях он застревает и продолжает работать в течение 2 часов, прежде чем выбросить исключение.
В тех случаях, когда статистика вычислений успешно работает в Импале, запрос бэкэнда-импалы для коллекции статистики содержит NDV для каждого столбца таблицы. Однако во всех других случаях бэкэнд-запрос вычисляет только число (*) для секционированных столбцов. (подробнее см. прилагаемый скриншот)
Копаем в ошибки impalad, я вижу, что некоторые узлы имеют проблемы с ip-xxx-xxx-x-xxx в одно и то же время. Однако, кроме этих узлов, другие работают нормально. ./i-2f58f021/apps/impalad.ip-xxx-xxx-x-xxx.us-west-2.compute.internal.hadoop.log.INFO.20150128-053250.3948.gz:I0128 06: 11: 26.943601 7420 status.cc:44] не удалось открыть транспорт для IP-ххх-ххх-х-xxx.us-запад 2.compute.internal: 22000 (подключение() не удалось: Превышено время ожидания соединения)
Параметры разрешения Прочитано
установить NUM_SCANNER_THREAD = 2, а затем запустить запрос статистики вычислений. Опубликуйте, что мы сбросили NUM_SCANNER_THREAD. Это не помогло.
Размер кластера
1 r3.2xlarge NameNode | 39 r3.2xlarge DataNode на AWS
Вопросы
То, что происходит в фоновом режиме за импала вычислений статистика логики?
Есть ли еще свойства уровня сеанса, которые могут быть использованы для оптимизации операторов расчета статистики?
Возможна ли синхронизация соединения Импаладная связь между узлами через порт 22000 является причиной сбоя статистики вычислений?
Любая помощь была бы принята с благодарностью.