2016-03-06 6 views
7

Есть несколько вариантов, чтобы получить доступ к библиотекам R в Spark:Использование R в Apache Спарк

  • непосредственно с помощью
  • с использованием языка привязок, как или rscala
  • с использованием автономной службы, как

Похоже, что SparkR довольно ограничен, OpenCPU требует сохранения дополнительных сервисов, а привязки могут иметь значение sta проблема. Есть ли что-то особенное для архитектуры Spark, которые делают использование любого решения непростым.

Есть ли у вас опыт интеграции R и Spark, которыми вы можете поделиться?

ответ

4

Основной язык проекта кажется важным фактором.

Еслиpyspark хороший способ использовать искру для вас (это означает, что вы обращаетесь к Спарк с Python) доступа к R через rpy2 не имеет большого значения, с помощью какой-либо другой библиотеки Python с C-расширения.

Там существуют отчеты пользователей делать это (хотя с отдельными вопросами, такими как How can I partition pyspark RDDs holding R functions или Can I connect an external (R) process to each pyspark worker during setup)

Если R ваш основной язык, помогая авторам SparkR с обратной связью или взносов, где вы чувствуете, что есть ограничение будет способ идти.

Если ваш основной язык Scala, rscala должна быть ваша первая попытка.

В то время как комбо pyspark + rpy2 будет казаться наиболее «установленным» (как в «использует самую старую и, возможно, самую популярную кодовую базу»), это не обязательно означает, что это лучшее решение (и молодые пакеты могут быстро развиваться) , Сначала я бы оценил, что является предпочтительным языком для проекта, и попробуйте варианты оттуда.

+0

Считаете ли вы, что OpenCPU не является хорошим вариантом? –

+0

@CafeFeed У меня нет опыта с этим. – lgautier

 Смежные вопросы

  • Нет связанных вопросов^_^