2

Я использую многовариантное гуассианское распределение для анализа аномалий. Это как обучающий набор выглядитКаким образом должно выполняться нулевое стандартное отклонение в одной из функций в многовариантном гауссовском распределении?

19-04-16 05:30:31 1 0 0 377816 305172 5567044 0 0 0 14 62 75 0 0 100 0 0 
<Date>  <time>  <--------------------------- ------- Features ---------------------------> 

Допустит, один из указанных выше признаков не меняется, они остаются равен нулем.

Расчета среднего значения = му

mu = mean(X)' 

Расчет сигма2, как

sigma2 = ((1/m) * (sum((X - mu') .^ 2)))' 

Вероятность индивидуального признака в каждом наборе данных рассчитываются с использованием стандартной гауссовской формулы

guassian

Для особая особенность, если ll оказываются равными нулю, тогда среднее значение (mu) также равно нулю. Впоследствии сигма2 также будет равна нулю. Таким образом, когда я вычисляю вероятность через gaussian-распределение, я бы получил проблему «устройство по нулевому».

Однако в тестовых наборах это значение функции может колебаться, и я хотел бы, чтобы это было как ненормальность. Как, должно ли это быть обработано? Я не хочу игнорировать такую ​​функцию.

ответ

1

Так что проблема возникает каждый раз, когда у вас есть переменная, которая является постоянной. Но тогда аппроксимация его нормальным распределением не имеет абсолютно никакого смысла. Вся информация о такой переменной содержится только в одном значении - и это интуиция, почему происходит это деление на 0.

Если вы знаете, что эти колебания в вашей переменной не наблюдаются в учебном наборе, вы можете просто установить дисперсию такой переменной, чтобы она была меньше определенного значения. Вы можете применить функцию max(variance(X), eps) вместо классического определения дисперсии. Тогда - вы будете уверены, что деления на 0 не произойдет.

+0

Спасибо за входные данные. Я попытаюсь обновить результаты. –

+0

И? Помог ли мой ответ? –

+0

еще раз спасибо за предложение. Прошу прощения за поздний ответ. Да, это работает. И я понимаю из вашего предложения (пожалуйста, подтвердите), что мы пытаемся включить небольшую «дисперсию» в эту функцию (которую я, вероятно, добавлю, если среднее значение/std окажется равным нулю), так что наименьшее отклонение от это значение (eps) можно назвать ненормальным. EPS будет (по определению) - это расстояние между двумя соседними номерами в системе с плавающей запятой «машина». Я думаю, что это должно сделать трюк. :-) –