Для того, чтобы сделать хорошую классификацию, вам нужно иметь дополнительную информацию о студенте, а не о классе, который они берут. Следуя вашему примеру, обнаружение спама основано на словах, останавливает слова, которые обычно являются спамом (покупка, продвижение, деньги) или происхождение в заголовках http. Для случая, чтобы предсказать студентский уровень, вы могли бы представить себе информацию о студенте, например: социальный класс, он занимается спортом, мужчиной или женщиной и так далее.
Возвращаясь к вашему вопросу, это не название уроков, которые интересны, но оценки, которые каждый ученик получил на этих уроках. Вы должны принять оценки каждого из четырех уроков и урока f для обучения наивного классификатора Байеса.
Ваша запись может выглядеть так:
StudentID gradeA gradeB gradeC gradeD gradeF
1 10 9 8 5 8
2 3 5 3 8 8
3 5 3 1 1 2
4 10 10 10 5 4
После тренировки вашего классификатора вы пройдете новую запись для нового студента подобное:
StudentID gradeA gradeB gradeC gradeD
1058 1 5 8 4
классификатор сможет предсказать класс для урока F с учетом предшествующих оценок.
Возможно, вы заметили, что я намеренно сделал набор данных для обучения, где класс F сильно коррелирует с классом. Это то, что классификатор Байеса попытается изучить, просто более сложным образом.
Добро пожаловать на сайт. Это руководство поможет вам упростить вопрос, который в настоящее время очень широк: [ask]. – mins