2014-08-27 1 views
1

Я имею в виду по следующей ссылке: Hive Support for SparkМожет кто-нибудь объяснить это: «Spark SQL поддерживает другой вариант использования, чем Hive».

Он говорит:

«Спарк SQL поддерживает различный случай использования, чем улей.»

Я не уверен, почему это будет так. Означает ли это, что как пользователь Hive я не могу использовать движок Spark для запуска Spark SQL?

Некоторые вопросы:

  • Спарк SQL использует улей Query парсер. Таким образом, он идеально поддерживает все функциональные возможности Hive.
  • Будет ли использовать Hive Metastore?
  • Будет ли улей использовать оптимизатор искры или он построит собственный оптимизатор?
  • Will Hive переводит MR Jobs в Spark? Или использовать какую-то другую парадигму?

ответ

1

Spark SQL предназначен для использования выражений SQL поверх библиотек обучения Spark. Он позволяет использовать SQL как инструмент (в частности) для создания расширенных аналитических приложений (например, ML). Это не замена для Hive, которая лучше всего подходит для пакетной обработки/ETL.

Однако, существует также работа, продолжающаяся вверх по течению, чтобы Spark мог служить общей базой данных для Hive. Эта работа позволит вам в полной мере использовать преимущества Spark для использования в Hive.

+0

Спасибо. Несколько вопросов: - Spark SQL использует парсер Hive Query. Таким образом, он идеально поддерживает все функциональные возможности Hive. Будет ли он использовать Hive Metastore? - Будет ли улей использовать оптимизатор Spark или он построит собственный оптимизатор? - Уилл переведет MR Jobs в Spark? Или использовать какую-то другую парадигму? – Venkat

+0

IIRC, Spark SQL будет использовать Hive Metastore, так что вы сможете запускать все запросы Hive. Что касается Hive-on-Spark, см. [Это сообщение в блоге] (http://blog.cloudera.com/blog/2014/07/apache-hive-on-apache-spark-motivations-and-design-principles/) , который описывает принципы проектирования. –

 Смежные вопросы

  • Нет связанных вопросов^_^