Я заинтересован в оценке предсказуемости меток кластеров, обнаруженных с помощью неконтролируемой кластеризации. Предположим, у меня есть набор данных, состоящий из пациентов, и я использую неконтролируемый метод кластеризации для группировки их на основе их профиля экспрессии генов. Мой метод обнаруживает 4 кластера. Теперь я хочу узнать, предвидится ли это членство в кластере из данных выражения. Используя неконтролируемые кластерные метки в качестве выходной переменной, я тренирую надзорный классификатор с перекрестной проверкой. Итак, я тренирую классификатор, используя 80% данных, и оцениваю другие 20% для точности.Беспристрастное прогнозирование кластерных меток
Является ли этот метод предвзятым, потому что метки кластера выходных данных извлекаются из полных данных? Если да, то как я могу сделать это непредвзято? Если я выполняю кластеризацию с перекрестной проверкой, я думаю, мне нужно будет вручную связать кластеры между каждой разницей. Поскольку меня особенно интересует предсказуемость только одного из четырех кластеров по сравнению с другими, мне нужно будет выяснить, какой кластер находится в каждой кластеризации данных с помощью какого-то ручного анализа.
Спасибо за ввод. Что-то не совсем корректно в отношении использования управляемого метода для классификации объектов, которые были помечены с помощью неконтролируемого метода для начала. Связанный вопрос: Предположим, у меня есть набор образцов с кластерными метками, полученными из некоторого неконтролируемого метода. Теперь я хотел бы изучить новые данные и определить, к каким кластерам они принадлежат.Кажется, я мог бы использовать контролируемое обучение для создания кластерной модели исходных данных и применять ее к новым данным для определения членства в кластере. Как я могу оценить эти новые ярлыки? Как раз с некоторой мерой согласования кластера? –