У меня проблема классификации (предсказывающая, принадлежит ли последовательность классу или нет), для чего я решил использовать несколько методов классификации, чтобы помочь отфильтровать ложные срабатывания.При использовании нескольких классификаторов - как измерить производительность ансамбля? [SciKit Learn]
(Проблема в биоинформатике - классификация белковых последовательностей как последовательность предшественников нейропептидов. Here's the original article, если кому-то интересно, and the code used to generate features and to train a single predictor).
Теперь классификаторы имеют примерно одинаковые показатели производительности (точность и точность/точность 83-94%) в обучающем наборе для 10-кратного CV), поэтому мой «наивный» подход состоял в том, чтобы просто использовать несколько классификаторов (Random Forests , ExtraTrees, SVM (линейное ядро), SVM (ядро RBF) и GRB) и использовать простое большинство голосов.
МОЙ вопрос: Как получить показатели производительности для разных классификаторов и/или предсказания их голосов? То есть, я хочу посмотреть, не влияет ли использование нескольких классификаторов на мою производительность, или какая из них их сочетает.
Моей интуицией, возможно, является использование оценки ROC, но я не знаю, как «объединить» результаты и получить ее из комбинации классификаторов. (То есть, чтобы увидеть, что кривая ROC предназначена только для каждого классификатора в одиночку [уже известна], затем увидеть кривую ROC или AUC для данных обучения, используя комбинации классификаторов).
(В настоящее время я фильтрую предсказания с использованием «вероятности прогноза» с помощью методов Random Forests и ExtraTrees, затем я произвольно фильтрую результаты с прогнозируемой оценкой ниже «0.85». Дополнительным слоем фильтрации является «сколько классификаторов согласуют это положительная классификация этого белка »).
спасибо!
(The website реализации, где мы используем несколько классификаторов - http://neuropid.cs.huji.ac.il/)
Весь притон реализованы с помощью SciKit учиться и питона. Цитаты и все!)
Это как-то не в тему вопрос, но вы нашли готовые функции набора и классы для нескольких систем классификаторов в skilearn или вы его закодировали вручную? (специально для чего-то вроде слияния путем обучения) –
Я закодировал его вручную; удивительно, что для кластеров/фьюзеров классификаторов нет ничего (кроме уже существующих моделей, таких как AdaBoost, Forest ансамбли и т. д.). – GrimSqueaker
Укладку или скрининг не сложно сделать наивно, например; http://stackoverflow.com/questions/21506128/best-way-to-combine-probabilistic-classifiers-in-scikit-learn – GrimSqueaker