Я создаю текстовый классификатор для статей, связанных с новостями. Я использую весь текст в статье для обучения и тестирования.Имеет ли смысл рассматривать только a-zA-Z и цифры для обучения и тестирования?
Я видел подход, в котором человек применяет предварительную обработку текста, то есть `using regex рассматривает только a-zA-Z0-9 и заменяет остальную часть символов пробелом" ".
Какой подход правильный? Имеет ли эта предварительная обработка extrac смысл?