2016-12-15 8 views
0

Мне нужно узнать информацию об усилении для выбора функции прямо сейчас, Но у меня нет ясного понимания об этом. Я новичок, и я в замешательстве.Как получение информации работает в текстовой классификации

Как использовать IG в выборе функции (ручной расчет)?

я просто ключ это .. Что есть кто-нибудь может помочь мне, как использовать formula

enter image description here

, то это пример example

enter image description here

+0

пожалуйста, объясните, что вы делаете, и не понимаете (формулы? Цель информации получить? Как его код «Что такое вероятность?) –

+0

Надеюсь, мои объяснения вам помогут. –

ответ

0

Как использовать усиление информации в выборе функции?

получить информацию (InfoGain(t)) измеряет количество битов информации, полученной для предсказания класса (с), зная, наличие или отсутствие члена (т) в документе.

Вкратце, коэффициент усиления информации является мерой уменьшения энтропии переменной класса после того, как значение для функции наблюдается. Другими словами, получение информации для классификации является мерилом того, насколько распространена функция в конкретном классе по сравнению с тем, насколько она распространена во всех других классах.

В текстовой классификации функция означает условия, представленные в документах (a.k.a corpus). Рассмотрим два члена в корпусе - term1 и term2. Если term1 уменьшает энтропию переменной класса на большее значение, чем term2, то term1 более полезен, чем term2 для классификации документов в этом примере.

Пример в контексте настроений классификации

Слово, которое происходит в основном в положительных отзывов кино и редко негативные отзывы содержит высокую информативность. Например, наличие слова «великолепный» в обзоре фильмов является сильным показателем того, что обзор положительный. Это делает «великолепным» высокое информативное слово.

Compute энтропия и получить информацию в питоне