У меня есть некоторые высокоразмерные данные, из которых я хочу обнаружить выбросы. Я знаю, что если я работаю с низкоразмерными данными, я могу сгруппировать, а затем проверить, принадлежит ли точка данных кластеру, или рассчитать среднее расстояние от него до ближайших соседей и т. Д. Но я не могу этого сделать это на высокоразмерных данных из-за проклятия размеров.Имеет ли смысл случайным образом проектировать высокоразмерные данные в низкоразмерные при обнаружении выбросов?
Поэтому я думаю, что, возможно, я могу случайным образом проецировать высокоразмерные данные на более низкие размерные и проверять, являются ли проекции точки данных в большинстве преобразованных наборов данных. Мое предположение заключается в том, что выброс в более высоких измерениях также должен быть выбросом в большинстве прогнозов для более низкого измерения.
Например, случайным образом некоторые выступы из (предположим, что мы имеем проклятие размеров в ) к (где мы можем кластере с традиционными методами), обозначим через (все из них являются матриц со случайными элементами) , Предположим, мы хотим обнаружить выбросы в . Если для многих , является outlier в , то является outlier.
Имеет ли смысл?
Знаете ли вы о методах, известных как уменьшение размерности? – delnan
@ delnan Спасибо. Я читаю об этом сейчас. – sqd