2016-10-18 1 views
0

У меня есть набор данных, который был разделен на кластеры элементов данных, все из которых должны представлять собой единый объект. Каждый элемент данных состоит из таких переменных, как имя, номер телефона и т. Д. И группируется вместе, поскольку считается, что они представляют одного и того же человека. У меня нет информации о том, как они были сгруппированы, но у меня есть вся информация о каждом элементе данных.Найти парадигму/мастер/архетип в кластере

Я хотел бы найти/оценить наиболее представительный элемент данных для каждого кластера. Я не знаком с кластерным анализом, но считаю, что идентификация «центроида» или «медоидной» происходит на этапе алгоритма кластеризации, а не после. Может ли кто-нибудь указать мне, как я могу оценить элемент данных master/archetype/paradigm для каждого кластера после кластеризации элементов? Есть ли способ определить, какие правила наиболее важны для определения того, был ли элемент включен в кластер ПОСЛЕ того, как произошла кластеризация. Все советы приветствуются!

ответ

0

Остерегайтесь, что такой объект может быть не очень хорошим., В зависимости от ваших данных. Если бы кто-нибудь дал вам кластер {«Apple», «apple», «banana», «Banana»}, какой объект вы бы выбрали?

Три популярных варианта:

  • режим, наиболее часто.
  • медоид, объект с наименьшим средним расстоянием к другим
  • минимаксимальных, объект с наименьшим максимальным расстоянием к другим

ВРАГ режим, вам нужна информация о количестве. То есть если у вас есть 10 раз «яблоко» и два раза «aple», вы бы выбрали более частые.

Для двух других вам нужна очень функция расстояния (или функция сходства). Это будет очень сложно сделать, если ваши атрибуты имеют разные типы. Но если бы у нас была только одна строка с орфографическими ошибками: «apple», «appel», «aple», «aaple», то правильная орфография, вероятно, будет иметь наименьшее расстояние до остальных. Но с плохо выбранным расстоянием результаты будут плохими.