2010-01-09 4 views
4

Предположим, что существует 4 комплекта:Вычислительная степень подобия среди группы наборов

s1 = {1,2,3,4};
s2 = {2,3,4};
s3 = {2,3,4,5};
s4 = {1,3,4,5};

Есть ли какая-либо стандартная метрика, чтобы представить степень подобия этой группы из 4 наборов?

Благодарим вас за предложение метода Jaccard. Однако это кажется попарно. Как я могу вычислить степень подобия всей группы множеств?

+0

Все зависит от того, что вы хотите сделать с помощью набора установленных единиц измерения подобия. Вы сравните их с наборами из более чем 4 наборов или всегда 4? Вы пытаетесь разбить или сгруппировать множество наборов? – Tobu

ответ

2

Ваш вопрос не очень конкретный. Но, полагаю, вы имеете в виду нечто вроде «дистанции редактирования» между ними? То есть сколько вам нужно изменить s1, чтобы добраться до s2?

Просмотрите статью в Википедии по адресу Edit distance.

0

можно вычислить размер пересечения каждого множества

8

парный, вы можете вычислить Jaccard distance двух множеств. Это просто расстояние между двумя наборами, если они были векторами булевых в пространстве, где {1, 2, 3 ...} - все единичные векторы.

+2

+1, и, вероятно, среднее значение коэффициентов (6) Jaccard - это то, что ищет @Soup. –

+0

Приобрести свою идею взять среднее. – Tobu

2

Как сказал Tobu, я бы использовал Jaccard Index, который является просто пересечением, разделенным объединением множеств.

+0

спасибо за очистку ссылки Nick D – Aly