2017-01-15 9 views
0

У меня есть два корпуса (Корпус 1 Corpus 2), документы в корпусе 1 содержат плагиаторные предложения от Corpus 2. Я использую подход Tf-Idf для измерения сходства между документами в корпусе 1 против Docs в корпусе 2.Расчет Tf-Idf для двух корпусов

был построен инвертированный индекс терминов в корпусе 2, следующим образом: Corpus 2 Index

Вскоре, для сравнения каждых два предложений, я построил два вектора Tf-IDF, то я имеют меру сходства с использованием сходства Косина.

Мой вопрос заключается в том, что в процессе строительства векторов, относящихся к предложениям корпуса 1, я использовал индекс Corpus 2, чтобы получить Idf, суммируя документы, относящиеся к терминам X, это правильный путь!? поскольку некоторые термины, которые находятся в Corpus 1, недоступны в Corpus 2, а функция Tf-idf вернет 0 для этих условий! или мне нужно построить еще один индекс для corpus 1 (который, на мой взгляд, исключит силу Tf-idf).

ответ

0

Мы должны индексировать целевой корпус, необходимый для выполнения нашей работы, например: , если у нас есть 2 корпуса, оригинальные и плагиат. Мы должны индексировать оригинал, так как нам нужно выполнить поиск.