У меня есть эта проблема совпадения двух строк для «более общих», «менее общих», «того же значения», «противоположного значения» и т. Д.семантические строки соответствия - используя word2vec или s-match?
Строки могут быть из любого домена. Предположим, что строки могут быть из электронных писем людей.
К примеру,
String 1 = "movies"
String 2 = "Inception"
Здесь я должен знать, что Inception меньше общего, чем кино (вроде есть-отношения)
String 1 = "Inception"
String 2 = "Christopher Nolan"
Здесь я должен знать, что Inception меньше общий, чем Кристофер Нолан
String 1 = "service tax"
String 2 = "service tax 2015"
С первого взгляда мне кажется, что S-матч будет делать работа. Но я не уверен, что S-match можно заставить работать с базами знаний, отличными от WordNet или GeoWordNet (как указано на их странице).
Если я использую word2vec
или dl4j
, я думаю, это может дать мне оценки подобия. Но также поддерживает ли строка строку more general
или less general
, чем другую?
Но я вижу word2vec может быть основан на обучающий набор или большой корпус, как википедия и т.д.
Может кто-то один пролить свет на пути идти вперед?
Спасибо. Это помогло понять лучше. – Thalapathy