В контролируемом обучении у меня есть типичное разделение поезда/теста, чтобы изучить алгоритм, например. Регрессия или классификация. Что касается неконтролируемого обучения, то мой вопрос: нужен ли и полезен ли сбор/тест? Если да, то почему?Является ли поезд/тест-сплит в неконтролируемом обучении необходимым/полезным?
ответ
Ну, это зависит от проблемы, формы набора данных и класса неконтролируемого алгоритма, используемого для решения конкретной проблемы.
Грубо: - методы снижения Размерность обычно тестируются путем вычисления ошибки в реконструкции, так что мы можем использовать процедуру к-кратная кросс-проверка
Но алгоритм кластеризации, я предложил бы делать статистический анализ для того, чтобы производительность теста. Существует также немного трудоемкий трюк, который Расщепление набор данных и рука этикетки тест набор с Внушительные классов и крест проверки
В любом случае неконтролируемого алгоритм используется на поднадзорных данных, то это всегда хорошо перекрестной проверки
в целом: - не нужно разделить данные на поезд-тестового набора, но если мы можем сделать это всегда лучше
Вот статья, которая объясняет, как кросс-проверки является хорошим инструментом для неконтролируемого обучения http://udini.proquest.com/view/cross-validation-for-unsupervised-pqid:1904931481/ и полный текст можно получить здесь http://arxiv.org/pdf/0909.3052.pdf
Вопрос-ответ: Как вы тестируете? – cel
@cel Я не уверен, что вы имеете в виду под своим вопросом? Дело в том, что в контролируемом обучении у меня есть реальный выход, и я могу сравнить его с ним. Но при неконтролируемом изучении алгоритм работает путем поиска, например, сходства в данных. Но как измерить производительность? –
Да, это точно моя точка зрения. Тестирование не является прямым, так как вы не знаете, что правильно и что не так. Таким образом, общий принцип разделения на учебные и тестовые наборы не может быть легко применен к неконтролируемому обучению. – cel