У меня есть как положительные, так и отрицательные учебные документы для проблемы классификации текста. Я планирую вычислять значение хи-квадрат для каждой функции в каждом документе. Имея это значение, как я могу перейти к классификации с помощью SVM? Каким будет пороговое значение для классификации?Как использовать значение Ши-квадрат для классификации текста с использованием SVM?
0
A
ответ
0
Значение Chi-square может использоваться для выполнения выбора функции, которая может быть шагом предварительной обработки. После этого вы можете значительно уменьшить свой словарный запас (например, выбрать наиболее полезные 100K-термины из 1M словаря). Этот шаг может иметь два преимущества: 1. уменьшите размер модели на следующем шаге; 2. быстрее во время прогнозирования. Минусы: могут или не могут повлиять на эффективность классификации.
Для продолжения классификации вам все же необходимо использовать эти функции 100K для обучения вашей модели (например, используя алгоритм SVM). После того, как ваша модель будет изучена, вы можете использовать модель для классификации.