Предположим, что для данной проблемы с ML у нас есть функция, которой обладает человек. Мы можем кодировать эту информацию одним из следующих способов:Насколько точность предсказания SVM (или других моделей ML) зависит от способа кодирования функций?
- Назначьте идентификатор каждому из автомобилей. Сделайте столбец «CAR_POSSESSED» и поместите идентификатор функции в качестве значения.
- Сделайте столбцы для каждого автомобиля и поставьте 0 или 1 в зависимости от того, обладает ли этот автомобиль рассмотренным образцом или нет. Столбцы будут похожи на «BMW_POSSESSED», «AUDI_POSSESSED».
В моих экспериментах второй путь проводили многолучше, чем 1-ый, когда попытался с SVM.
Как способ кодирования влияет на обучение модели, и есть ли какие-то ресурсы, в которых изучается влияние кодирования? Или нам нужно делать удары и испытания, чтобы проверить, где он работает лучше всего?
Ok, я тоже получил ответ. Категориальные функции должны предоставляться в логической форме, а причина - как вы сказали. Численно-значные функции предоставляются так, как есть. Благодаря! Но все еще есть какой-то ресурс, который обсуждает ** ** ** ** кодировку **? –