2016-08-03 4 views
0

Я создаю текстовый классификатор для статей, связанных с новостями. Я использую весь текст в статье для обучения и тестирования.Имеет ли смысл рассматривать только a-zA-Z и цифры для обучения и тестирования?

Я видел подход, в котором человек применяет предварительную обработку текста, то есть `using regex рассматривает только a-zA-Z0-9 и заменяет остальную часть символов пробелом" ".

Какой подход правильный? Имеет ли эта предварительная обработка extrac смысл?

ответ

1

зависит от цели. В большинстве случаев они удаляют много символов, а в некоторой ситуации (в зависимости от ваших данных) он может уменьшить размеры (например, для модели Bag Of Words с TF-IDF) и, таким образом, дать вам лучший результат. Но в другом месте вы должны рассмотреть некоторые другие символы, такие как пунктуация.

Например, вы хотите проверить, является ли предложение вопросом предложения или нет (с классификацией). Тогда почти необходимо рассмотреть знаки препинания как «?».

Наконец, подумайте о своих данных, затем попробуйте использовать разные модели предпозиций и сравните конечный результат (например, перекрестное подтверждение классификации) друг с другом и выберите лучшую модель.