1

Я извлекаю функции для документа. Одна из особенностей - the frequency of the word in the document. Проблема в том, что количество предложений в наборе обучения и наборе тестов не обязательно одинаково. Поэтому мне нужно каким-то образом нормализовать его. Одна из возможностей (которая мне пришла в голову) заключалась в том, чтобы разделить частоту слова на количество предложений в документе. Мой руководитель сказал мне, что лучше нормализовать его логарифмическим способом. Я понятия не имею, что это значит. Может кто-нибудь мне помочь?Нормализация нормальной частоты слов

Спасибо заранее,

PS: Я также видел this тему, но это не помогло мне.

ответ

2

Первый вопрос: какой алгоритм вы используете впоследствии? Для многих алгоритмов достаточно нормализовать сумку векторов слов, такую, что она суммируется до одной или какая-то другая норма является одной.

Вместо нормализации по числу предложений вы должны, однако, нормализовать общее количество слов в документе. Например, у вашего тестового корпуса могут быть более длинные предложения.

Я полагаю, что рекомендация вашего руководителя означает, что вы не сообщаете количество слов, а логарифм счетчиков. Кроме того, я бы посоветовал заглянуть в меру TF/IDF в целом. это более распространено в Textmining

2

«нормализовать его логарифмическим способом», вероятно, просто означает заменить частотную характеристику на журнал (частота).

Одной из причин, почему использование журнала может быть полезно, является тип символов вхождения Zipfian.

 Смежные вопросы

  • Нет связанных вопросов^_^