2016-12-09 5 views
-2

В настоящее время я делаю опрос в библиотеке машинного обучения с использованием h2o.ai и SparkMLlib. Я определил, что большее количество алгоритмов ML поддерживается библиотекой h2o.ai по сравнению с SparkMLlib, а разбиение кадра данных Spark на тренировочный и тестовый набор представляется сложным (необходимо преобразовать кадр свечной информации в кадр данных R/h2o, который а также время/ресурс).Разница между h2o.ai и SparkMLlib с точки зрения алгоритма машинного обучения

Каковы другие преимущества/недостатки использования h2o.ai библиотеки более SparkMLib или наоборот? Я фокусирую h2o.ai и SparkMLlib на реализацию на основе R (SparkR). Таким образом, числовые кадры для h2o (as.h2o) и SparkMLlib (as.DataFrame) различны.

ответ

3

Частично, я полагаю, из ответа, используя следующие ссылки: http://datasocial.onsocialengine.com/post/4171645/spark-mllib-or-h2o

Детальный сравнительный анализ представлен здесь: https://github.com/szilard/benchm-ml

Слайды стендовых маркировки результатов: https://speakerdeck.com/szilard/benchmarking-machine-learning-tools-for-scalability-speed-and-accuracy-la-ml-meetup-at-eharmony-june-2015

Видео стендовых маркировки результаты: https://vimeopro.com/eharmony/talks/video/132838730

Технический отчет по анализу библиотеки машинного обучения: https://github.com/chauhansaurabhb/Analysis-of-H2O-vs-SparkMLlib/blob/master/MLLibrary.pdf