2015-08-22 6 views
5

Есть ли какие-либо тесты производительности (оригинальные), которые сравнивают Stinger vs Impala vs Drill? Кроме того, что предпочтительнее - мой вариант использования будет в основном касаться интерактивных интерактивных запросов на вершине Hive. Благодарю.Производительность сверла Apache

ответ

3

На сайте есть некоторые номера производительности http://allegro.tech/fast-data-hackathon.html.

В целом, мы видим, что Drill and Impala сопоставимы по производительности для интерактивных запросов с дифференциацией Drill, являющейся его способностью запрашивать без определений метаданных и простоты использования, работающих с данными JSON.

Обратите внимание, что эти тесты находятся на гораздо более ранних версиях на Drill, таких как 0,8/0,9 (также не настроенные надлежащим образом для местоположения данных). Теперь Drill 1.1 с большим количеством улучшений в SQL (функции окна и т. Д.) И производительность.

+0

Спасибо за ваш ответ, каковы ваши взгляды на Stinger.next? Как он сравнивается с Drill? Какие-нибудь тесты, чтобы определить, что быстрее? – Sai

+0

Кроме того, можно ли выполнять сверление при работе с наборами данных о ТБ? Я читал, что Impala и Presto не подходят для сложных запросов на огромных наборах данных. – Sai

2

Вы не можете делать такие тесты, это не имеет смысла, и вы не должны доверять такому эталону.

Все будет зависеть от ваших собственных данных, у вас есть файлы JSON? предпочитайте сверло. Вы хотите запросить более 1 ТБ, предпочитаете Hive и т. Д.

Кроме того, вы можете рассмотреть формат файла, JSON, Kudu, Parquet или ORC.

Затем придет оптимизация, Hive + Tez кажется лучше для запросов parrarel, но очень медленный для одного запроса. В то время как Impala является противоположной (MapReduce против MassiveParrarelProcessing).

Кроме того, вы хотите рассмотреть аппаратный Ressource, диск SSD или нет и т.д ..

я рекомендую, начать с Apache Drill + файл JSON, а затем попробовать Apache Сверло с паркетом или ORC.

Если вам нужна помощь, опишите точно, что у вас есть (данные + оборудование) и что вы хотите.

+0

Привет, Томас, я пытаюсь запустить большие запросы сверла на одном узле с 512 ГБ ОЗУ и 48 ЦП. Запрос занимает слишком много времени для работы около 30 ГБ данных. Для завершения агрегации всех записей требуется более 1 часа. У вас есть какие-то параметры настройки, которые мне нужно проверить для этого? –

+1

1 узел? Вы должны понимать, что такое Drill, как PrestoDB, Impala ... это многопроцессорный процессор обработки MPP, поэтому лучше иметь несколько узлов ^^ –

+2

Так как у нас есть 48 процессоров, мы можем распараллелить их между собой? –