2013-05-14 2 views
-2

В целом, каковы шаги, которые вы выполняете, когда точность контролируемой модели классификатора обучения, которую вы получили после обучения, не соответствует вашим ожиданиям? Примеры шагов: реинжиниринг функций, удаление шума, уменьшение размерности, переобучение и т. Д. Какие тесты (проведенные после того, как вы получили% точности вашего классификатора) заставили вас прийти к выводу (скажем, что существует много шума, из-за которого точность низкая), что заставляет вас выполнять действие (Удалить шумные слова/функции и т. Д.)? После выполнения действия вы повторно тренируете классификатор, и цикл продолжается до тех пор, пока вы не добьетесь хороших результатов.Изучение машин - Оценка классификатора

Я прочитал этот вопрос на SO - Feature Selection and Reduction for Text Classification, который имеет большой обслуживаемый ответ, но это не говорит о Выполняемых, которые заставляют вас прийти к выводу (как описано выше)

ответ

0

Вы не говорите что вы пытаетесь сделать, и в целом это действительно зависит, если вы практик (специалист в другой области) или специалист по компьютерному обучению. Несмотря на это, там все виды вещей, которые вы можете посмотреть по адресу:

Одно измерение глубины или сложности:

- Основы: Обработка простых методических и программных ошибок. особенности между 0 и 1 (или -1 и 1), кроссом проверкой, чтобы получить хорошие значения параметров (гипер C и гамма в случае SVM) и многих других деталей: этот вопрос охватывает их хорошо: Supprt Vector Machine works in matlab, doesn't work in c++

- Промежуточных: Обработка более глубоких концептуальных ошибок. пересматривая качество и количество ваших данных, просматривая тип классификатора, который вы используете, например, линейный или нелинейный, генеративный или дискриминирующий, проверяя литературу по результатам, полученным другими, используя методы, аналогичные вашим, по тем же данным. Подумайте о том, что вы тренируетесь по некоторому типу тестирования данных для других типов данных (проблемы с большими объемами). Ключевые слова: адаптация домена, многозадачное обучение, регуляризация и т. Д.

- Advanced: Вы исчерпали все возможности, вам необходимо продвинуть состояние дел, чтобы решить вашу проблему. Вам нужны более быстрые алгоритмы. Вам нужны надежные результаты с меньшим количеством данных или вам нужно обрабатывать масштабный масштаб. Изучите современные решения и продвиньте их вперед. Кроме того, иногда прогресс не так эволюционная/инкрементный, иногда вам нужно сделать еще один маршрут, исключить предположения и т.д.

Эта классификация в основном ортогональны, но и полезно:

- Экспертные знания: иногда (как и в случае, когда вы связываете) проблемы, которые очень трудно обрабатывать (NLP, Vision), можно получить с помощью экспертных знаний. Например, при распознавании лиц люди используют некоторые области лица (вокруг глаз) на основе результатов в области нейробиологии, которые говорят, что для распознавания результатов индивидуумов это то, на что ориентируются люди. Большинство, если не все полезные методы представления, такие как SIFT, SURF, LBP, имеют некоторые основы для человеческого зрения. Кроме того, в примере, который вы связали, лингвисты предложили представления, используемые в подходах ML к НЛП: Feature Selection and Reduction for Text Classification.

1

Существуют различные показатели, которые вы можете использовать в зависимости от вашего классификатора. Это бинарный классификатор? Многоклассовый классификатор? Или многозадачный многоклассовый классификатор? Наиболее распространенными метриками являются Precision, Recall, F-Score и Accuracy, но есть множество других более подробных показателей, особенно когда речь идет о классификаторах с несколькими метками.

Большинство инструментальных средств машинного обучения реализуют стандартные оценочные показатели (точность, повтор и т. Д.), Но я обнаружил, что метрики для классификаторов с несколькими метками не реализованы во многих инструментах машинного обучения.

Документ A systematic analysis of performance measures for classification tasks представляет собой исчерпывающий перечень показателей для классификаторов.

Хорошая бумага метрик классификатора мульти-меток: A literature survey of algorithms for multi-label learning

В зависимости от показателей, вы можете либо обрабатывать такие вопросы, как переобучения, underfitting, или получить больше данных (или даже более точные данные) или (в экстремальных ситуациях) алгоритмы или подходы к алгоритму переключения машин. См. Domingo's A few useful things to know about Machine Learning