1

Я заинтересован в оценке предсказуемости меток кластеров, обнаруженных с помощью неконтролируемой кластеризации. Предположим, у меня есть набор данных, состоящий из пациентов, и я использую неконтролируемый метод кластеризации для группировки их на основе их профиля экспрессии генов. Мой метод обнаруживает 4 кластера. Теперь я хочу узнать, предвидится ли это членство в кластере из данных выражения. Используя неконтролируемые кластерные метки в качестве выходной переменной, я тренирую надзорный классификатор с перекрестной проверкой. Итак, я тренирую классификатор, используя 80% данных, и оцениваю другие 20% для точности.Беспристрастное прогнозирование кластерных меток

Является ли этот метод предвзятым, потому что метки кластера выходных данных извлекаются из полных данных? Если да, то как я могу сделать это непредвзято? Если я выполняю кластеризацию с перекрестной проверкой, я думаю, мне нужно будет вручную связать кластеры между каждой разницей. Поскольку меня особенно интересует предсказуемость только одного из четырех кластеров по сравнению с другими, мне нужно будет выяснить, какой кластер находится в каждой кластеризации данных с помощью какого-то ручного анализа.

+0

Спасибо за ввод. Что-то не совсем корректно в отношении использования управляемого метода для классификации объектов, которые были помечены с помощью неконтролируемого метода для начала. Связанный вопрос: Предположим, у меня есть набор образцов с кластерными метками, полученными из некоторого неконтролируемого метода. Теперь я хотел бы изучить новые данные и определить, к каким кластерам они принадлежат.Кажется, я мог бы использовать контролируемое обучение для создания кластерной модели исходных данных и применять ее к новым данным для определения членства в кластере. Как я могу оценить эти новые ярлыки? Как раз с некоторой мерой согласования кластера? –

ответ

0

Чтобы быть честным, вся проблема кажется неправильной. Если у вас есть алгоритм (метод кластеризации), который строит некоторое разделение данных, то он всегда предсказуемым контролируемым методом. Фактически, при знании семейства кластеров - можно предложить идеальный классификатор (с почти 100% точностью). Вы должны пересмотреть формулировку проблемы. В частности, каждая технология кластеризации может быть преобразована в классификатор путем добавления некоторых ограничений, по которым элементы должны иметь значение в том же кластере. Поэтому, если вы используете кластерный аппарат C, тогда можно просто преобразовать C в полуналоженный метод, который должен обладать элементами кластера, полученными в обучающем наборе в соответствии с заданными метками. Таким образом, мы почти достигнем , создадим точно такую ​​же маркировку, которая обеспечивает точность 100%.

Единственный способ создать правильную гипотезу - назначить эти ярлыки некоторыми экспертами, так как тогда мы не можем построить классификатор, который является «экспертом с ограничениями». И поэтому приведенные выше рассуждения потерпят неудачу. Другими словами, если вы хотите проверить, предсказуемо ли какая-либо маркировка контролируемым образом, вам необходимо получить эти метки способом, который трудно моделировать (например, эксперты, природа, физика, эксперименты, дорогостоящая цифровая оценка) а не что-то такое простое, как кластерная модель, потому что весь смысл контролируемого обучения - найти эту базовую модель. Если эта модель известна заранее (не для самого алгоритма, а для нас), то все рассуждения неверны. Вы должны ответить на следующие вопросы:

Это семейство моделей, проанализированных по выбранной технологии кластеризации, аналогично семейству пространства гипотез используемого классификатора.

Или более формально

Используется классификатор последовательны с распределением индуцированного выбранным алгоритмом кластеризации работал на рассматриваемом наборе данных.