Я испытываю высокую задержку между узлами Spark и узлами HBase. В текущих ресурсах, которые мне требуются, я запускаю HBase и Spark на разных серверах.Уменьшение задержки между узлами Spark и HBase
HFiles сжаты с помощью алгоритма Snappy, который уменьшает размер данных в каждом регионе от 50 до 10 ГБ.
Тем не менее, данные, передаваемые по проводам всегда распакованы, поэтому чтение занимает много времени - около 20 МБ в секунду, что около 45 минут для каждого 50GB региона.
Что делать, чтобы ускорить чтение данных? (Или, текущая пропускная способность считается высокой для HBase?)
Я собирался локализовать HBase HFiles локально на машинах Spark вместо постоянного запроса данных из HBase. Является ли это возможным?
Какова наилучшая практика для решения такой проблемы?
Thanks
Является ли это чтением файлов с Дисков, требуется время или передача данных по сети занимает много времени? Пожалуйста, укажите конфигурацию оборудования/сети, конфигурацию кластера и способ чтения данных Hbase от Spark. – Sumit
Передача данных по сетям требует времени. Данные не считываются с диска. 4x 16-ядерные 32-гигабайтные RAM-серверы, сетевое подключение 10 Гбит/с, каждый сервер вмещает 16 рабочих Spark. Кластер Spark Standalone. Чтение из HBase с использованием стандартного TableInputFormat. – imriqwe