2015-11-12 2 views
0

У меня есть кластеризация данных, выполняемых человеком, основанная исключительно на их знании системы. У меня также есть вектор функций для каждого элемента. Я не знаю о значении функций, и не знаю, что такое рассуждение, стоящее за человеческой кластеризацией.Обратное проектирование алгоритм кластеризации из кластеров

У меня есть полная информация о том, какие элементы принадлежат кластеру. Я могу предположить, что человек не был глупым, и есть способ получить кластеризацию от особенностей.

Есть ли разумный способ обратной инженерии кластеризации? То есть, как я могу выбрать функции и алгоритм кластеризации, которые большую часть времени будут давать ту же самую кластеризацию (в этом наборе данных)?

До сих пор я пробовал наивный подход - прохождение алгоритмов кластеризации, предоставляемых библиотекой sklearn в python, и сравнение полученных кластеров с исходным. Такой подход не дает хороших результатов.

Мой следующий подход состоял бы в использовании некоторых линейных комбинаций функций или подмножеств функций. Здесь, опять же, мой вопрос заключается в том, что есть более разумный способ сделать это, чем пройти как можно больше комбинаций.

Я не могу поколебать ощущение, что это стандартная проблема, и я просто не могу найти подходящий термин для поиска решения в Google.

+0

Я голосовал, чтобы переместить этот вопрос на http://stats.stackexchange.com/, они принимают вопросы по интеллектуальному анализу данных и компьютерному обучению. Некоторые контрольные вопросы: был ли этот «ручной» алгоритм кластеризации, выполненный на одном наборе данных, или, может быть, у вас есть несколько наборов данных, сгруппированных по тем же принципам? Знаете ли вы что-либо о принципах, лежащих в основе ручного кластеризации (может быть, человек принял фиксированное количество кластеров до того, как увидел данные, возможно, человек предположил, что некоторые точки в наборе данных не принадлежат ни одному кластеру, возможно, человеческое использование визуального представления данных во время кластеризации)? – liori

+0

Спасибо, я не был уверен, где его разместить. Первоначально это был вопрос scikit, который стал более общим, когда я его написал. Существует только один набор данных. Я знаю принципы кластеризации, но как это переводится в функции. Хорошим примером может быть: Взял группу объектов, людей сгруппированных (или получивших ответ ниже, я думаю, они классифицировали) их на основе того, из какого материала они, по-видимому, сделаны («вероятно, металлические»). Теперь моим набором функций будут молекулы, найденные в объектах, их плотности, эластичность и т. Д. - немаркированные. Возможно, что есть некоторые несвязанные функции, например, форма. – Darina

ответ

0

Вы уверены, что все сделано автоматически?

Мне кажется, что вы должны относиться к этому как к классификации Проблема: постройте классификатор, который делает то же, что и человек.

+0

Спасибо, я так застрял в кластеризации, что забыл о других вариантах. Я рассмотрю методы классификации. – Darina

 Смежные вопросы

  • Нет связанных вопросов^_^