я искал в Интернете о нормализации оценки Tf на случаи, когда длины документов, очень разные (например, имеющие длины документов варьируются от 500 слов до 2500 слов)тс-IDF документов различной длины
единственная нормализация, которую я нашел, говорит о делении частоты термина в длине документа, и, следовательно, длина документа не имеет никакого значения.
Этот метод, хотя и является очень плохим для нормализации tf. если таковые имеются, это приводит к тому, что оценки tf для каждого документа имеют очень большое смещение (если все документы не составлены из почти одного и того же словаря, что не является случаем при использовании tf-idf)
, например, позволяет взять 2 документы - один из 100 уникальных слов, а другой из 1000 уникальных слов. каждое слово в doc1 будет иметь ТФ 0,01 в то время как в doc2 каждое слово будет иметь ТФ 0,001
это приводит к ТФ-IDF классов автоматически будет больше при сопоставлении слов с doc1 чем doc2
у кого-нибудь есть какой-либо стимулирование более подходящей нормализующей формулы?
спасибо
редактировать я также видел способ о том, что мы должны разделить термин частоту максимального члена частоты дока для каждого дока это также разве решение моей проблемы
что я думал, вычисляет максимальную частоту диапазона из всех документов, а затем нормализует все термины путем деления каждой термической частоты на максимум
с нетерпением будут знать, что вы думаете