2015-07-28 4 views
3

В контролируемом обучении у меня есть типичное разделение поезда/теста, чтобы изучить алгоритм, например. Регрессия или классификация. Что касается неконтролируемого обучения, то мой вопрос: нужен ли и полезен ли сбор/тест? Если да, то почему?Является ли поезд/тест-сплит в неконтролируемом обучении необходимым/полезным?

+0

Вопрос-ответ: Как вы тестируете? – cel

+0

@cel Я не уверен, что вы имеете в виду под своим вопросом? Дело в том, что в контролируемом обучении у меня есть реальный выход, и я могу сравнить его с ним. Но при неконтролируемом изучении алгоритм работает путем поиска, например, сходства в данных. Но как измерить производительность? –

+1

Да, это точно моя точка зрения. Тестирование не является прямым, так как вы не знаете, что правильно и что не так. Таким образом, общий принцип разделения на учебные и тестовые наборы не может быть легко применен к неконтролируемому обучению. – cel

ответ

0

Ну, это зависит от проблемы, формы набора данных и класса неконтролируемого алгоритма, используемого для решения конкретной проблемы.

Грубо: - методы снижения Размерность обычно тестируются путем вычисления ошибки в реконструкции, так что мы можем использовать процедуру к-кратная кросс-проверка

Но алгоритм кластеризации, я предложил бы делать статистический анализ для того, чтобы производительность теста. Существует также немного трудоемкий трюк, который Расщепление набор данных и рука этикетки тест набор с Внушительные классов и крест проверки

В любом случае неконтролируемого алгоритм используется на поднадзорных данных, то это всегда хорошо перекрестной проверки

в целом: - не нужно разделить данные на поезд-тестового набора, но если мы можем сделать это всегда лучше

Вот статья, которая объясняет, как кросс-проверки является хорошим инструментом для неконтролируемого обучения http://udini.proquest.com/view/cross-validation-for-unsupervised-pqid:1904931481/ и полный текст можно получить здесь http://arxiv.org/pdf/0909.3052.pdf

https:///www.researchgate.net/post/Which_are_the_methods_to_validate_an_unsupervised_machine_learning_algorithm