1

Могут ли обеими наивными байями и логистической регрессией отличить оба этих набора данных? Я понимаю, что Naive Bayes может, и логистическая регрессия со сложными терминами может классифицировать эти наборы данных. Пожалуйста, помогите, если я ошибаюсь.Логистическая регрессия и Наивные Байесы для этого набора данных

Изображения наборов данных здесь:

enter image description here

+0

Трудно ответить на этот вопрос. Может быть, идея в соответствии с предыдущими экспериментами может быть дана, но, что самое лучшее, попробуйте увидеть различные алгоритмы и модели, если вы отметили данные обучения. –

+0

См. Мой обновленный ответ. Предыдущий ответ был неверным. – user1149913

+0

+1 Трудно поверить, что этого еще не было сделано, см. Также http://stats.stackexchange.com/questions/242176/can-naive-bayes-fit-non-linear-decision-boundaries – tomka

ответ

4

Позволяет запускать оба алгоритма на двух одинаковых наборов данных те, которые вы вывешенные и посмотреть, что происходит ...

EDIT Предыдущий ответ я отправил неверен. Я забыл объяснить дисперсию в гауссовских наивных байесах. (Предыдущее решение было для наивных заливов с использованием гауссиан с фиксированной тождественной ковариацией, которая дает линейную границу решения).

Оказывается, что LR терпит неудачу в круговом наборе данных, пока NB может преуспеть. Оба метода преуспевают в прямоугольном наборе данных.

Граница решений LR линейна, а граница NB квадратична (граница между двумя гауссианами, выровненными по оси с разными ковариациями).

Применяя NB, циркулярный набор данных дает два средства примерно в одном и том же положении, но с разными отклонениями, что приводит к граничной граничной границе решения - по мере увеличения радиуса вероятность более высокой дисперсии гауссова возрастает по сравнению с вероятностью более низкой дисперсия гауссова. В этом случае многие внутренние точки на внутреннем круге неправильно классифицируются.

На двух графиках ниже представлено решение гауссовского NB с фиксированной дисперсией.

Circular Dataset (Identity covariance gaussian naive bayes)

Rectangular Dataset (Identity covariance gaussian naive bayes)

В приведенных ниже участков, контуры представляют собой вероятностные контуры раствора NB. Это гауссовское решение NB также изучает отклонения отдельных параметров, что приводит к ковариантности по оси в решении.

Circular Dataset (Gaussian naive bayes - axis-aligned covariance)

Rectangular Dataset (Gaussian naive bayes - axis-aligned covariance)

+0

Как я писал в своем ответе, оба метода работают над круговой проблемой, если вы берете гистограммы пространства функций –

0

Как бы вы использовали Наивный Байес на этих наборах данных?

В обычной форме, Наивный Байес нуждается в бинарных/категориальных данных.

+0

Большинство наборов инструментов были бы bin данные в категории под капотом, создавая гистограмму. Линейный дискриминантный анализ с диагональной ковариацией является непрерывной версией классификатора Наив Байеса (независимые нормали, обусловленные классом, для каждой особенности). –

2

Наивная Байесовская/Логистическая Регрессия может получить вторую (правую) эти две фотографии, в принципе, потому что есть граница линейного решения, которая отлично отделяется.

Если вы использовали непрерывную версию Naive Bayes с условно-условными нормальными распределениями по функциям, вы можете отделить ее, потому что дисперсия красного класса больше, чем у синего, поэтому граница вашего решения будет круговой. Вы получили бы распределения для двух классов, которые имели бы такое же среднее (центральная точка двух колец), но где дисперсия признаков, обусловленных красным классом, была бы больше, чем у функций, обусловленных синим классом , что приводит к круговой границе решения где-то на краю. Однако это нелинейный классификатор.

Вы можете получить тот же эффект при биннировании гистограмм пространств объектов, если ширина гистограмм достаточно узкая. В этом случае будут действовать как логистическая регрессия, так и Naive Bayes, основанные на гистограммных векторах.