0

У меня есть некоторые высокоразмерные данные, из которых я хочу обнаружить выбросы. Я знаю, что если я работаю с низкоразмерными данными, я могу сгруппировать, а затем проверить, принадлежит ли точка данных кластеру, или рассчитать среднее расстояние от него до ближайших соседей и т. Д. Но я не могу этого сделать это на высокоразмерных данных из-за проклятия размеров.Имеет ли смысл случайным образом проектировать высокоразмерные данные в низкоразмерные при обнаружении выбросов?

Поэтому я думаю, что, возможно, я могу случайным образом проецировать высокоразмерные данные на более низкие размерные и проверять, являются ли проекции точки данных в большинстве преобразованных наборов данных. Мое предположение заключается в том, что выброс в более высоких измерениях также должен быть выбросом в большинстве прогнозов для более низкого измерения.

Например, случайным образом некоторые выступы из R^4 (предположим, что мы имеем проклятие размеров в R^4) к R^2 (где мы можем кластере с традиционными методами), обозначим через P1, P2, P3 .. Pn (все из них являются 2x4 матриц со случайными элементами) , Предположим, мы хотим обнаружить выбросы в a1, a2 .. an. Если для многих k, Pk*am является outlier в Pk*a1, Pk*a2 .. Pk*an, то am является outlier.

Имеет ли смысл?

+1

Знаете ли вы о методах, известных как уменьшение размерности? – delnan

+0

@ delnan Спасибо. Я читаю об этом сейчас. – sqd

ответ

-1

Типичным способом обнаружения аномалий будет выполнение уменьшения размерности с использованием principle component analysis. Идея похожа на то, что вы описываете, но использует линейную алгебру, чтобы сделать разумный выбор точного способа выполнения проекции. Это гарантирует, что минимальный объем информации теряется при проецировании.