2016-10-23 15 views
0

В алгоритме DBSCAN Outliers часто отбрасываются как шум, но в некоторых приложениях эти шумные данные могут быть более интересными, чем более регулярно встречающиеся. Зачем ?Выбросы алгоритмов DBSCAN

ответ

1

Точки, отмеченные как выбросы, не отбрасываются как таковые, они являются точками не в любом кластере. Вы можете проверить набор некластеризованных точек и попытаться их интерпретировать.

DBSCAN предназначен для предоставления кластеров без каких-либо знаний о том, сколько кластеров существует или какая у них форма. Он делает это путем итерационного расширения кластеров от исходных точек в достаточно плотных областях. Выбросы - это только те точки, которые находятся в населенных регионах спарсли (как определено параметрами eps и minPoints).

На практике важно выбрать параметры, которые не будут включать эти выбросы. Если они включены в кластеры, они часто выступают в качестве моста между кластерами и заставляют их сливаться в аналитически бесполезный капля.

1

Точки кластера подобные. Они имеют одинаковые свойства и рассказывают одну и ту же историю и могут быть излишними.

Шум (DBSCAN не подходит для обнаружения фактических выбросов!) - это все те точки данных, которые не группируются. Вы можете даже считать данные осевых точек данными нормальными данными, поскольку они не группируются.

Для обнаружения фактических выбросов (ошибок или особенно интересных объектов) используйте специализированные алгоритмы обнаружения выбросов.