2016-10-21 4 views

ответ

6

Apache Спарк 2.0.0 API, которые остались во многом похож на 1.X, Спарк 2.0 +0,0 имеет API отличий

Apache Spark 2.0.0 первый релиз на 2.x линии. Основными обновлениями являются: удобство использования API, поддержка SQL 2003, повышение производительности, структурированная потоковая передача, поддержка R UDF, а также операционные улучшения.

Новое в искре 2:

  • Самое большое изменение, которое я могу видеть, что DataSet и DataFrame API, будут объединены.
  • Последний и самый лучший из искры будет очень эффективным по сравнению с предшественниками. Spark 2.0 собирается сосредоточиться на сочетании паркета и кеширования для достижения еще большей пропускной способности.
  • Структурированные потоки - еще одна большая вещь!
  • Это будет первая версия, которая будет посвящена ETL.Последующие версии будут добавлять больше операторов и библиотеки для ETL

Вы можете пройти через Spark release 2.0.0, где обновления в следующих пунктах разъясняются:

  • API Стабильность
  • ядро ​​и Спарк SQL
  • MLlib
  • SparkR
  • Потоковое вещание
  • Зависимость от, упаковки и операций
  • Переезды, изменения поведения и Устаревшие
  • Известные проблемы
4

Существует не так много различий в отношении архитектуры, как скорлупа еще DAG и РДД, который является наиболее важная его часть!

Несмотря на то, что Spark 2.0 намного оптимизирован и имеет DataSet Api, который дает намного больше возможностей для разработчиков. Итак, я бы сказал, что архитектура такая же, как и Spark 2.0, обеспечивает много оптимизации и имеет богатый набор Api!

Это основные вещи, которые предусмотрены Apache Спарк 2.0:

  • Самое большое изменение, которое я могу видеть, что DataSet и DataFrame API, будут объединены.
  • Последним и лучшим из Spark будет целый лот эффективен по сравнению с предшественниками. Spark 2.0 собирается сосредоточиться на сочетании паркета и кеширования, чтобы достичь еще лучшего. пропускная способность.
  • Структурированные потоки - еще одна большая вещь!
  • Это будет первая версия, которая будет сосредоточена на ETL. Последующие версии будут добавлять больше операторов и библиотеки для ETL

Для получения дополнительной информации, пожалуйста, возьмите лки здесь: https://www.quora.com/What-are-special-features-and-advantages-of-Apache-Spark-2-0-over-earlier-versions