У меня есть 2 документа AB (или 2 серии документов), и хотел бы получить новый документ, показывающий разницу между двумя документа: ABNLP Как получить разницу между 2 документов
разностными, есть несколько определений, одно: Список слов/«концепция» включает в а, но не в B.
Я имею в виду использование IDF TF для каждого предложения а и в, , такие как:
from sklearn.feature_extraction.text import TfidfVectorizer
d1 = [open(f1) for f1 in text_files]
tfidf = TfidfVectorizer().fit_transform(d1)
pairwise_similarity = tfidf * tfidf.T
Я не уверен, если это будет иметь значение для создания нового документа C = «AB», особенно Интересуется «семантической разница» в документе C
Я не думаю, что это тривиальная проблема, на которую можно быстро ответить в сообщении SO. Я бы спросил в Reddit/machinelearning. – elyase
Хорошо, конечно. Может быть, некоторые ссылки были бы полезны для начала расследования. – Brook