Я смотрю на таблицу 14.1 из Vector Space Classification (глава по ссылке) в разделе «Введение в информационный поиск», который в примере 14.1 «показывает векторные представления tf-idf из пяти документов в . Таблица 13.1, используя формулу (1 + log tf) * log(4/df)
если tf > 0
Тем не менее, когда я смотрю на таблицу 14.1, не кажется, что эта формула TF-IDF применяется к векторам документовКлассификация TF-IDF и Rocchio во введении к информационному поиску
документы из таблицы 13.1:.
1: Chinese Beijing Chinese
2: Chinese Chinese Shanghai
3: Chinese Macao
4: Tokyo Japan Chinese
и весовые коэффициенты для векторов в таблице 14.1:
vector Chinese Japan Tokyo Macao Beijing Shanghai
d1 0 0 0 0 1.0 0
d2 0 0 0 0 0 1.0
d3 0 0 0 1.0 0 0
d4 0 0.71 0.71 0 0 0
Если я применить формулу TF-IDF к Japan
измерению d4
, я получаю:
TF: 1 (term appears once in document 4)
DF: log(4/1) (term is present in only document 4)
TF-IDF Weight is thus: log(4) ~ .60
Почему мой исход расчета отличается от того, что включено в текст?