-2

Моделирование пространства для текстового документа довольно просто.
Например, я могу использовать каждое слово из текста (данные обучения) как функцию.
Если конкретное слово (например, «собака») встречается несколько раз в (классифицированных) примерах обучения (например, классифицировано как спам), то я могу принять это слово, чтобы классифицировать новые данные.Классификация наивных заливов для NO text-классификация

Как смоделировать мои функции, если они содержат только слова?
В моем конкретном случае у меня есть такие функции, как имя, возраст и размер семьи.
Я не думаю, что это правильный способ сделать запись для любого возраста в моем вектор-функции.
Если я предполагаю, что люди умирают не позднее 100, у меня будет 100 цифр только для моей возрастной функции.
Итак, я подумал о бинировании данных: Разделите функцию «возраст» в возможно 1-20 лет, 21-40 лет, 41-60, ...
Чтобы моделировать человека в возрасте 30 лет, мне понадобилось бы всего 5 цифры (01000).

Есть ли лучший способ моделирования таких функций?

ответ

0

Кажется, я нашел answer1answer2. Следовательно, можно смоделировать эту функцию либо с помощью бинарного процесса, либо с помощью (нормального) распределения, которое соответствует непрерывной функции.

 Смежные вопросы

  • Нет связанных вопросов^_^