AdaBoost - это бинарный/дихотомический/2-классный классификатор и предназначен для повышения слабого учащегося, который лучше, чем 1/2 точности. AdaBoostM1 является классификатором M-класса, но по-прежнему требует, чтобы слабый ученик был лучше точности 1/2, когда можно было ожидать, что уровень вероятности будет около 1/M. Балансировка/взвешивание используется для того, чтобы сначала получить классы с равной распространенностью, но переоценка, присущая AdaBoost, может быстро ее уничтожить. Решение должно основываться на повышении шансов исправленных мер, таких как Kappa или Informedness (AdaBook).
По мере роста М, т.е. с классификацией текста, это несоответствие растет, и, следовательно, требуется гораздо более сильный, чем случайный классификатор. Таким образом, при M = 100 вероятность того, что AdaBoostM1 потребуется минимум 50%, составляет около 1%.
Поскольку базовые классификаторы становятся более сильными (а именно, не более чем на первый раз), возможности для повышения качества вещей уменьшаются - это уже привело нас к очень определенной части пространства поиска. Скорее всего, он будет перегружен ошибками и выбросами, поэтому нет возможности сбалансировать самые разные варианты.
Ряд ресурсов по информированности (включая MatLab код и XLS листы и ранние работы) здесь: http://david.wardpowers.info/BM Сравнения с другими мерами каппы случайностей скорректированной здесь: http://aclweb.org/anthology-new/E/E12/E12-1035.pdf
Реализация ВЕКА и экспериментирование для AdaBoost использования Букмекерская информированность доступна - свяжитесь с автором.
Таким образом, кажется, что решение заключается в том, что повышение имеет смысл, если классификатор совершает ошибки на своих собственных данных обучения. поскольку Наивный Байес обычно достигает точности, близкой к 100%, повышение здесь не имеет смысла. –