Как использовать усиление информации в выборе функции?
получить информацию (InfoGain(t)
) измеряет количество битов информации, полученной для предсказания класса (с), зная, наличие или отсутствие члена (т) в документе.
Вкратце, коэффициент усиления информации является мерой уменьшения энтропии переменной класса после того, как значение для функции наблюдается. Другими словами, получение информации для классификации является мерилом того, насколько распространена функция в конкретном классе по сравнению с тем, насколько она распространена во всех других классах.
В текстовой классификации функция означает условия, представленные в документах (a.k.a corpus). Рассмотрим два члена в корпусе - term1
и term2
. Если term1
уменьшает энтропию переменной класса на большее значение, чем term2
, то term1
более полезен, чем term2
для классификации документов в этом примере.
Пример в контексте настроений классификации
Слово, которое происходит в основном в положительных отзывов кино и редко негативные отзывы содержит высокую информативность. Например, наличие слова «великолепный» в обзоре фильмов является сильным показателем того, что обзор положительный. Это делает «великолепным» высокое информативное слово.
Compute энтропия и получить информацию в питоне
пожалуйста, объясните, что вы делаете, и не понимаете (формулы? Цель информации получить? Как его код «Что такое вероятность?) –
Надеюсь, мои объяснения вам помогут. –