2017-02-13 11 views
0

Я смотрю на таблицу 14.1 из Vector Space Classification (глава по ссылке) в разделе «Введение в информационный поиск», который в примере 14.1 «показывает векторные представления tf-idf из пяти документов в . Таблица 13.1, используя формулу (1 + log tf) * log(4/df) если tf > 0 Тем не менее, когда я смотрю на таблицу 14.1, не кажется, что эта формула TF-IDF применяется к векторам документовКлассификация TF-IDF и Rocchio во введении к информационному поиску

документы из таблицы 13.1:.

1: Chinese Beijing Chinese 
2: Chinese Chinese Shanghai 
3: Chinese Macao 
4: Tokyo Japan Chinese 

и весовые коэффициенты для векторов в таблице 14.1:

vector Chinese Japan Tokyo Macao Beijing Shanghai 
d1  0  0  0  0  1.0  0 
d2  0  0  0  0  0  1.0 
d3  0  0  0  1.0 0  0 
d4  0  0.71 0.71 0  0  0 

Если я применить формулу TF-IDF к Japan измерению d4, я получаю:

TF: 1 (term appears once in document 4) 
DF: log(4/1) (term is present in only document 4) 
TF-IDF Weight is thus: log(4) ~ .60 

Почему мой исход расчета отличается от того, что включено в текст?

ответ

1

Вы правильно вычислили tf-idf. Текст немного вводит в заблуждение, когда он говорит

Таблица 14.1 показывает, ТФ-IDF векторных представлений пяти документов в таблице 13.1.

Это на самом деле, показывающий Tf-IDF векторных представлений нормированные к единице длины.

Детали:
Документ 4 имеет три слова «Токио», «Япония» и «китайский».
Вы правильно вычислили, что веса TF-IDF для «Токио» и «Япония» должны быть
log10 (4) ≈ 0.60. «Китайский» находится во всех документах, поэтому часть IDF его веса равна log (4/4) = 0, а вес для «китайца» равен нулю. Поэтому вектор документа 4 является

Chinese Japan Tokyo Macao Beijing Shanghai 
    0 0.60 0.60 0  0  0 

Но длина этого вектора равна SQRT (0,60^2 + 0,60^2) ≈ 0,85 Чтобы получить вектор единичной длины, все компоненты разделены 0,85 давая вектор в тексте

Chinese Japan Tokyo Macao Beijing Shanghai 
    0 0.71 0.71 0  0  0 

может быть, стоит отметить, что причина, по которой мы используем векторы единичной длины, чтобы настроить для документов различной длины. Без этой корректировки длинные документы обычно будут соответствовать запросам лучше, чем короткие документы.