2016-09-13 13 views
0

У меня есть тестовый и учебный набор данных, который следует использовать для измерения сходства строк. Здесь я дал несколько строк набора данных,Использование коэффициента Jaccard для измерения сходства строк

Brandon Bass ||| what the hell is Brandon bass thinking ||| Brandon Bass Has 5 Personal Fouls ||| False 
Sac ||| Congrats to Sac Kings fans ||| why yall forcing the kings to stay in sac town smh ||| False 
Stella ||| hello Stella can you follow me please ||| STELLA DO U HATE ME ||| False 


The data file has 50 entries of the form 
TOPIC ||| TWEET_SENT_1 ||| TWEET_SENT_2 ||| HAVE_SIMILAR_MEANING 

темы - Twitter тему

TWEET_SENT_1 – Tweet sentence 1 
TWEET_SENT_2 – Tweet sentence 2 
HAVE_SIMILAR_MEANING – a binary label (True – two sentences are similar, false – two sentences are not similar) assigned by a human annotator 

Нам нужно разделить набор данных на два: обучающий набор (35 проб) и тест-набор (15 образцов) и должны использовать обучающий набор для настройки параметров алгоритмов. И проверьте тестовый набор, используя лучший настраиваемый параметр.

Если алгоритм Jaccard Коэффициент

как я могу выполнить эту задачу? Может кто-нибудь, пожалуйста, дайте мне знать подход, который я могу использовать.

ответ

0

Подход Jaccard - это мера того, как два набора (из n-граммов в вашем случае) похожи. Здесь нет «настройки», кроме порога, при котором вы решаете, что две строки похожи или нет.

Например, если у вас есть 2 строки abcde и abdcde это работает следующим образом:

ngrams (n=2) : 'abcde' & 'abdcde' 
    ab bc cd de dc bd 
A 1 1 1 1 0 0 
B 1 0 1 1 1 1 

J (A, B) = (A∩B)/(A∪B)

J (а, в) = (3/6) = 0,5

Существует также Jaccard расстояние, которое захватывает несходства между двумя наборами, и рассчитывается, принимая one минус coeeficient Jaccard (в данном случае, 1 - 0.5 = 0.5)

Итак, для вас проблема, я бы использовал набор тренировок с метками, чтобы определить правильный порог, для которого ваши строки считаются схожими/разнородными.

 Смежные вопросы

  • Нет связанных вопросов^_^