0

Я тренирую корпус, состоящий из 200000 обзоров положительных и отрицательных отзывов с использованием модели Naive Bayes, и я заметил, что выполнение TF-IDF фактически снижает точность (при тестировании на тестовом наборе 50000 обзоров) примерно на 2%. Поэтому мне было интересно, имеют ли TF-IDF какие-либо основополагающие предположения относительно данных или модели, с которыми она работает, т. Е. В любых случаях, когда точность уменьшается за счет ее использования?В целом, когда TF-IDF снижает точность?

ответ

0

TF-IDF, насколько я понимаю, является функцией. TF - это временная частота, то есть частота появления в документе. IDF является обратным документом, часто используемым для частоты, в которой этот термин встречается.

Здесь модель использует информацию TF-IDF в учебном корпусе для оценки новых документов. Для очень простого примера: Скажите, что документ со словом «плохо» имеет довольно высокую частоту слова «плохое слово» в наборе тренировок. Таким образом, любой новый документ, содержащий плохие, будет более вероятным отрицательным.

Для получения точной точности вы можете вручную выбрать учебный корпус, который содержит в основном используемые отрицательные или положительные слова. Это повысит точность.

4

В некоторых случаях компонент IDF TF * IDF может нанести ущерб вашей точности классификации.

Пусть предположит следующую искусственную, легкую классификацию задачу, сделанную для иллюстрации:

  • класса А: тексты, содержащего слово «кукуруза»
  • Класса B: тексты, не содержащее слова «кукурузной '

Предположим теперь, что в классе A у вас есть 100 000 примеров и в классе B, 1000 примеров.

Что произойдет с TFIDF? Ну, частота обратного документа кукурузы будет очень низкой (потому что она встречается почти во всех документах), поэтому функция «кукуруза» получит очень маленький TFIDF, который является весом функции, используемой классификатором. Очевидно, что «кукуруза» была лучшей особенностью для этой задачи классификации. Таким образом, это пример, когда TFIDF может снизить точность классификации. Таким образом, в более общих терминах:

  • когда есть класс дисбаланс. Если у вас есть больше примеров одного класса, то хорошие функциональные возможности частого классового риска имеют более низкий IDF, поэтому их лучшие функции будут иметь более низкий вес
  • , когда у вас есть слова с высокой частотой, которые очень прогностичны для одного из классов (слова, которые содержатся в большинстве документов этого класса, например)

 Смежные вопросы

  • Нет связанных вопросов^_^