0

Мне нужно выполнить классификацию текста на множестве электронных писем. Но все слова в моем тексте мало разрешены. Частота каждого слова по отношению ко всем документам очень мала. слова не так часто повторяются. Поскольку для обучения классификаторов я считаю, что матрица документов с частотой, так как вес не подходит. Не могли бы вы предложить мне, какие другие методы мне нужно использовать.Как подготовить векторы признаков для классификации текста, когда слова в тексте не часто повторяются?

Благодаря

ответ

0

Реальная проблема будет, что если ваши слова, что редкий ученый классификатор не обобщать на реальных данных. Однако есть несколько решений:

1.) Используйте больше данных. Это неважно. Тем не менее, вы можете не только добавлять помеченные данные, но также использовать немаркированные данные в полууправляемом обучении

2.) Используйте больше данных (часть b). Вы можете посмотреть перевод обучения. Там вы строите классификатор на большом наборе данных с аналогичными характеристиками. Это могут быть потоки твиттера, а затем адаптировать этот классификатор к вашему домену.

3.) Получите свой конвейер для обработки справа. Ваша проблема может возникнуть из субоптимального конвейера. Вы делаете , заканчивая? В электронном письме слово , содержащее, должно быть отображено на stem. Это можно продвинуть еще дальше, используя синонимы со словарем.