У меня есть два корпуса (Корпус 1 Corpus 2), документы в корпусе 1 содержат плагиаторные предложения от Corpus 2. Я использую подход Tf-Idf для измерения сходства между документами в корпусе 1 против Docs в корпусе 2.Расчет Tf-Idf для двух корпусов
был построен инвертированный индекс терминов в корпусе 2, следующим образом:
Вскоре, для сравнения каждых два предложений, я построил два вектора Tf-IDF, то я имеют меру сходства с использованием сходства Косина.
Мой вопрос заключается в том, что в процессе строительства векторов, относящихся к предложениям корпуса 1, я использовал индекс Corpus 2, чтобы получить Idf, суммируя документы, относящиеся к терминам X, это правильный путь!? поскольку некоторые термины, которые находятся в Corpus 1, недоступны в Corpus 2, а функция Tf-idf вернет 0 для этих условий! или мне нужно построить еще один индекс для corpus 1 (который, на мой взгляд, исключит силу Tf-idf).