3

У меня есть много файлов данных, которые в конечном итоге будут помещены и сохранены в Azure Storage/Data Lake в течение определенного промежутка времени. Я хочу, чтобы предоставить возможность делать аналитику по этим данным, но я вижу, что на Лазурном есть два подхода:Azure Spark SQL vs U-SQL

  1. U-SQL/Лазурное озеро данных запроса (Визуализация ???)
  2. Спарк SQL с помощью Spark on Azure и Zeppelin

Может кто-нибудь подскажет мне, когда использовать этот подход? мне кажется, что оба могут выполнять аналогичную работу.

ответ

8

Вы можете думать о U-SQL как о версии SQL Spark SQL, где вы можете писать SQL Server в стиле SQL и расширять пользовательские функции на C#. В то время как Spark вы пишете в SQL-стиле Semi MySQL и расширяете его с помощью Scala или Python.

Если вы знакомы с Scala или Python, то выбор HDInsight может быть лучшим выбором. Spark поставляется с GraphX ​​и MLLib, которые на данный момент не имеют аналогов в Data Lake Analytics. Кроме того, если вам нужно что-то, что работает за пределами Azure, то SparkSQL - ваш единственный вариант.

Другим важным аспектом, о котором стоит подумать, является ценообразование. Data Lake Analytics стоит только денег, пока выполняется ваш запрос, но HDInsight стоит денег до тех пор, пока работает кластер. В зависимости от размера данных и сложности ваших запросов Data Lake Analytics может быть дешевле, потому что вы не платите за это время.

+1

Другим аспектом, который следует учитывать помимо @ wm_eddie, является то, что сегодня U-SQL доступен только для пакетных рабочих нагрузок, в то время как SparkSQL имеет интерактивный интерфейс с помощью ноутбуков. Одно из предостережений в том, что я пишу этот комментарий, что Spark в HDInsight еще не работает с ADLS (см. Http://stackoverflow.com/a/35569240/1318169). –

+1

Spark/PySpark теперь поддерживаются на HDInsight. Через несколько месяцев (~ 6), работая с ADLA и пару месяцев с HDInsight, это действительно сводится к :: Skillset для пользователей платформы и поддержки платформы; Потребность в стойке против кластера по требованию; и тип/размер данных, которые необходимо обработать. Я постоянно обнаруживаю, что аналитики растут быстрее на U-SQL, так как они уже знают ANSI SQL, но Data Engineers стремятся к Spark. Кроме того, U-SQL ожидает чистые/структурированные данные. HDInsight также имеет лучшую интеграцию PowerBI. пс. Я бы использовал Jupyter notebooks ", но" конфигурация пряжи критическая – jatal