В качестве примера я использую классификацию спама. Канонический подход состоял бы в том, чтобы вручную классифицировать случайную выборку электронных писем и использовать их для обучения классификатора NB.Должны ли мои данные по обучению Naive Bayes быть пропорциональными?
Отлично, теперь скажу, что я добавил кучу архивных писем, которые, как я знаю, не являются спамом. Будет ли это искажать мой классификатор, потому что теперь доля спама: не спам больше не является репрезентативным? Эти два способа я мог подумать об этом:
- Функции становятся слишком неспасными.
- алгоритм неявно использует вероятностный (спам) в своей классификации (таким же образом, что вероятность (состояние здоровья) девальвируется на редкость медицинского состояния, даже если тест положителен.
В общем, более подробные данные о тренировках лучше, чем меньше, поэтому я хотел бы добавить его, если он не нарушит алгоритм.
Это может быть лучше подходит для [DSE] (http://datasceince.stackexchange.com/). Это больше связано с подходом к науке о данных и воздействием различных наборов тренировок, а не на вопрос программирования. –
Спасибо, я думаю, что ответ Эд работает для меня, но я [спросил его там] (http://datascience.stackexchange.com/questions/8639/does-my-naive-bayes-training-data-need-to-be -proportional). PS у вашей ссылки есть опечатка. –