2015-03-05 4 views
-1

Я знаю, что алгоритм k-mean является итеративным. Если мы хотим запустить его с помощью MapReduce, все входные данные должны быть перезагружены и обработаны на каждой итерации, что увеличивает стоимость связи. Но мой вопрос заключается в том, что DBSCAN и SCAN также итеративны, как k-средства и k-medoid?Итерационные алгоритмы

+0

Посмотрите на алгоритмы. Какова ваша догадка и почему? Постскриптум будучи нетеративным, вовсе не означает, что легче распараллелить алгоритмы. –

ответ

1

Если ваша проблема связана с перезагрузкой, возможно, вы можете попробовать использовать Spark, что позволяет кэшировать промежуточный результат, сокращая время обработки ваших данных по сравнению с Hadoop MapReduce.

DBSCAN требует вычислений соседей почти каждого узла, что на самом деле довольно дорого, когда мы говорим о больших данных.

Реализация скважины DBSCAN на такой системе действительно сложна, и это было сделано с помощью Spark here. Однако я считаю, что итеративные алгоритмы намного эффективнее, чем другие, такие как DBSCAN.