1

Представьте, что у вас есть два распределения вероятности Гаусса в двух измерениях. Сначала центрируется на (0,1), а второе - на (0, -1). (Для простоты предположим, что они имеют одинаковую дисперсию.) Можно ли считать, что кластеры точек данных, отобранных из этих двух гауссианов, линейно отделимы?Являются ли гауссовы кластеры линейно разделяемыми?

Интуитивно ясно, что граница, разделяющая два распределения, линейна, а именно абсцисса в нашем случае. Однако формальное требование линейной сепарабельности состоит в том, что выпуклые оболочки кластеров не перекрываются. Это не может иметь место с кластерами, генерируемыми Гауссовым, поскольку их базовые распределения вероятностей пронизывают все R^2 (хотя и с незначительными вероятностями вдали от среднего).

Итак, являются ли гауссово сгенерированные кластеры линейно разделяемыми? Как можно примирить требование выпуклых оболочек с тем, что прямая линия является единственной мыслимой «границей»? Или, может быть, граница фактически перестает быть линейной, когда на фотографиях появляются неравные отклонения?

ответ

1

Гауссовские экземпляры кластера могут быть разделяемыми или нет. Это зависит от результата, а не от процесса его создания.

Линейная сепарабельность can be defined a как существование плоскости, разделяющей два множества точек, так что один набор точек целиком находится на одной стороне плоскости, а другой набор точек целиком находится на другой стороне плоскости ,

Возьмите теперь ваши конкретные гауссовы распределения. возможно, что они сгенерировали два линейно-разделяемых набора (либо по оси абсцисс, либо нет). Однако с вероятностью 1, если дисперсия отлична от нуля, и вы позволяете процессам генерировать достаточное количество баллов, результат не будет линейно разделяемым.

Итак, опять же, речь идет о результате, а не о процессе.

+0

Имеет смысл, спасибо! В качестве последующего вопроса предположим, что конкретные результаты имеют неперекрывающиеся выпуклые оболочки. Будет ли граница между кластерами зависеть только от контуров корпусов или же распределение распределения и плотность точек внутри корпусов также играют роль? – Tfovid

+0

Нет, все, что вам нужно, это выпуклый корпус, а не внутренности внутри него. –

2

Гауссовы кластеры по определению бесконечны. Они буквально везде, только с разной плотностью.

Таким образом, они не могут быть отделимы, линейные или нет. Концепция «разделимости» здесь не работает.

+0

Возможно, стоит добавить, что при некоторых предположениях (те же ковариационные матрицы обоих гауссиан) байесовский оптимальный классификатор линейный (хотя он не отделяется отлично, он просто делает наилучшую работу для таких данных). – lejlot

+0

Да, если ковариации одинаковы, то граница максимума правдоподобия является линейной. –

+0

Я понимаю, что распределение Гаусса пронизывает все пространство. Однако имеет смысл говорить о кластере, если он содержит конечное число точек. Таким образом, ответ, предложенный Ами Тавори, имеет смысл: два отдельных _инстационала кластера, построенного по Гаусу, действительно могут быть линейно разделяемыми, если они образуют выпуклые оболочки. – Tfovid