2

Этот вопрос касается многоклассовой классификации многокласников для задач кластеризации. Here хорошее определение два, чтобы убедиться, что никто не путает как:Многоуровневая классификация с «взвешенными метками» для задач кластеризации

MultiClass классификация означает классификационную задачу с более чем двух классами; например, классифицировать набор изображений фруктов, которые могут быть апельсинами, яблоками или грушами. В классификации многоклассов делается предположение, что каждый образец присваивается одной и только одной этикетке: плод может быть либо яблоком, либо грушей, но не одновременно.

Многоуровневая классификация присваивает каждому образцу набор целевых ярлыков. Это можно рассматривать как предсказание свойств точки данных, которые не являются взаимоисключающими, например темы, имеющие отношение к документу. Текст может касаться любой религии, политики, финансов или образования в одно и то же время или ни одного из них.

Из этого определения MultiLabel классификации, мы можем понять, что образец может возможно иметь несколько истинных двоичные метки поэтому образец текст, который идет о религии и политике будет иметь цель, глядя, как это: y = [1,1,0,0].

Что делать, если вместо бинарных меток у нас были вероятности или оценки. Таким образом, теперь наша цель будет выглядеть следующим образом: y = [0.5, 0.4, 0.0, 0.1] где вероятностные суммы равны 1, например. Документ составляет 50% религии, 40% политики и 10% образования. Разумеется, маркировка таких наборов данных не представляется возможным, поэтому давайте посмотрим на другой набор задач, а точнее на задачи кластеризации, чтобы увидеть, как это может произойти.

Для кластеризации задач, у нас есть набор данных [a,b,c,d,e] и его набор истинных кластеров [abce,d]. Кластеризация может рассматриваться как задача классификации, где классы представляют собой набор действий: слияние с активным кластером или запуск нового. Представьте себе систему, которая постепенно создает эти кластеры. Разумеется, это будет ошибкой, в результате чего образуются некогерентные кластеры [ab,c,d]. Рассматривая следующий образец e, теперь невозможно точно определить, к какому клану он должен быть добавлен, потому что его настоящий кластер теперь разделен на две части. Поскольку мы знаем набор правильных кластеров, мы можем назначить каждому действию (или потенциальному объединению) оценку точности или отзыва на основе y = [0.5, 0.3, 0, 0.2] (эти цифры являются результатом моего воображения, а не точности и не отзываются). Так что же наш лейбл здесь? Должны ли мы сливаться с любым из этих кластеров или мы должны начать новый кластер, содержащий только e?

Простым решением было бы принять наивысший балл как нашу настоящую метку или скрытое действие из-за отсутствия лучшего термина и использовать обычные функции классификации стоимости. Это будет означать, что наше скрытое действие merge e->ab - единственный истинный ответ, и все остальное одинаково плохо. По-моему, это кажется неправильным, потому что оба действия merge e->c и merge e->d были бы оштрафованы одинаково, даже если первое не обязательно ошибочно.

Возвращаясь к многоуровневой классификации, существуют ли какие-либо функции затрат, которые допускают такие «взвешенные метки» вместо 1s и 0s. Или я смотрю с этим под неправильным углом?

+0

В кластеризации у вас есть * not * есть правильные метки. Если у вас есть ярлыки, это классификация! –

+0

Хм, возможно, я не буду использовать правильную терминологию. Например, при разрешении кодового обозначения у вас есть правильные цепочки кодов или «кластеры». Я старался быть как можно более общим. –

ответ

5

Я на самом деле работаю над PhD, близким к этой теме, пытаясь придумать разумный подход к кластеру для выходного пространства.На данный момент я попытался использовать методы обнаружения сообщества из сетевых наук для кластеризации пространств - вы можете проверить мои paper about data-driven label space division в классификации с несколькими метками для некоторых советов. Я строю взвешенный и невзвешенный график, основанный на совместном использовании ярлыков от данных обучения и использующих множество алгоритмов обнаружения сообщества, чтобы придумать разделение, а затем классифицировать в каждом кластере и объединять результаты.

взвешенный граф подход несколько связан с вашим вопросом, - как отношения лейблов которые взвешиваются по количеству документов, они появляются в

Я также предоставляет свою реализацию в рамках питона scikit-multilearn пакета. - Вы может попытаться сыграть с ним - внедрение нового подхода к кластеризации очень просто и documented here. Скажи мне, если ты что-нибудь приедешь, надеюсь, я немного помог.

 Смежные вопросы

  • Нет связанных вопросов^_^