2015-05-12 1 views
0

Я новичок в области Data Science, и я не понимаю, почему кто-то хочет связать Hive с Spark, а не просто использовать Sqark-SQL.Зачем использовать Hive на Spark вместо Spark-SQL?

Какие преимущества можно использовать для использования Hive on Spark, а не Spark-SQL (кроме использования кода Hive уже в производстве)?

Благодаря

ответ

5

Этот ответ выше, не является правильным. Одним из компонентов, который является общим для Hive и SparkSQL, является SemanticAnalyzer. Hive имеет значительно лучшую поддержку SQL и более сложный оптимизатор на основе затрат. Моя рекомендация - использовать Hive on Tez против Hive на Spark или SparkSQL, поскольку он готов к производству, более стабилен и масштабируется.

+1

Поздравляем Мостафа, вы получите несколько баллов. Я поспособствовал искру sql в прошлом и работал с искровым sql по проектам клиентов. Ваш ответ поддерживается обоими этими событиями. В частности, утверждение о том, что «Hive имеет значительно лучшую поддержку SQL», мертв. – javadba

+0

Спасибо Мостафа, я пытаюсь, чтобы мой университет установил Spark на свой [кластер HPC] (https://www.sharcnet.ca), и среда отличается от большинства кластеров (у него есть Luster вместо HDFS для его распределенного файла система). Вы бы порекомендовали Hive on Spark? Я бы предпочел не перегружать администраторов запросами на установку (Hive, Tez, и Hadoop-коннектором для Luster), если не будет значительного преимущества для него. – NormallySane

0

хмм, кажется, единственный ответ здесь дает совет использовать тез ...

обратно к первоначальному вопросу, преимущества использования улей на Спарк, имхо, выгоды в основном лучше улей поддержку функций, а не поддержка языка HiveQL, Hive on Spark имеет гораздо лучшую поддержку hiveserver2 и функций безопасности.

в SparkSQL они действительно глючит, есть hiveserver2 осущ в SparkSQL, но в последней версии (1.6.x), hiveserver2 в SparkSQL не работает с hivevar и hiveconf аргумент больше, и имя пользователя для входа в систему через JDBC не работает, либо ... см https://issues.apache.org/jira/browse/SPARK-13983

наше требование использования искру hiveserver2 в безопасном режиме (с аутентификации и авторизации), в настоящее время SparkSQL в одиночку не может обеспечить это, и мы не должны используйте другие компоненты hadoop, такие как HDFS или YARN, мы используем искровую автономность, поэтому для нашего требования мы используем рейнджер/часовой + Hive on Spark.

 Смежные вопросы

  • Нет связанных вопросов^_^