Я извлекаю функции для документа. Одна из особенностей - the frequency of the word in the document
. Проблема в том, что количество предложений в наборе обучения и наборе тестов не обязательно одинаково. Поэтому мне нужно каким-то образом нормализовать его. Одна из возможностей (которая мне пришла в голову) заключалась в том, чтобы разделить частоту слова на количество предложений в документе. Мой руководитель сказал мне, что лучше нормализовать его логарифмическим способом. Я понятия не имею, что это значит. Может кто-нибудь мне помочь?Нормализация нормальной частоты слов
Спасибо заранее,
PS: Я также видел this тему, но это не помогло мне.