хмм, кажется, единственный ответ здесь дает совет использовать тез ...
обратно к первоначальному вопросу, преимущества использования улей на Спарк, имхо, выгоды в основном лучше улей поддержку функций, а не поддержка языка HiveQL, Hive on Spark имеет гораздо лучшую поддержку hiveserver2 и функций безопасности.
в SparkSQL они действительно глючит, есть hiveserver2 осущ в SparkSQL, но в последней версии (1.6.x), hiveserver2 в SparkSQL не работает с hivevar и hiveconf аргумент больше, и имя пользователя для входа в систему через JDBC не работает, либо ... см https://issues.apache.org/jira/browse/SPARK-13983
наше требование использования искру hiveserver2 в безопасном режиме (с аутентификации и авторизации), в настоящее время SparkSQL в одиночку не может обеспечить это, и мы не должны используйте другие компоненты hadoop, такие как HDFS или YARN, мы используем искровую автономность, поэтому для нашего требования мы используем рейнджер/часовой + Hive on Spark.
Поздравляем Мостафа, вы получите несколько баллов. Я поспособствовал искру sql в прошлом и работал с искровым sql по проектам клиентов. Ваш ответ поддерживается обоими этими событиями. В частности, утверждение о том, что «Hive имеет значительно лучшую поддержку SQL», мертв. – javadba
Спасибо Мостафа, я пытаюсь, чтобы мой университет установил Spark на свой [кластер HPC] (https://www.sharcnet.ca), и среда отличается от большинства кластеров (у него есть Luster вместо HDFS для его распределенного файла система). Вы бы порекомендовали Hive on Spark? Я бы предпочел не перегружать администраторов запросами на установку (Hive, Tez, и Hadoop-коннектором для Luster), если не будет значительного преимущества для него. – NormallySane