У меня есть тестовый и учебный набор данных, который следует использовать для измерения сходства строк. Здесь я дал несколько строк набора данных,Использование коэффициента Jaccard для измерения сходства строк
Brandon Bass ||| what the hell is Brandon bass thinking ||| Brandon Bass Has 5 Personal Fouls ||| False
Sac ||| Congrats to Sac Kings fans ||| why yall forcing the kings to stay in sac town smh ||| False
Stella ||| hello Stella can you follow me please ||| STELLA DO U HATE ME ||| False
The data file has 50 entries of the form
TOPIC ||| TWEET_SENT_1 ||| TWEET_SENT_2 ||| HAVE_SIMILAR_MEANING
темы - Twitter тему
TWEET_SENT_1 – Tweet sentence 1
TWEET_SENT_2 – Tweet sentence 2
HAVE_SIMILAR_MEANING – a binary label (True – two sentences are similar, false – two sentences are not similar) assigned by a human annotator
Нам нужно разделить набор данных на два: обучающий набор (35 проб) и тест-набор (15 образцов) и должны использовать обучающий набор для настройки параметров алгоритмов. И проверьте тестовый набор, используя лучший настраиваемый параметр.
Если алгоритм Jaccard Коэффициент
как я могу выполнить эту задачу? Может кто-нибудь, пожалуйста, дайте мне знать подход, который я могу использовать.