2016-12-31 3 views
0

Я пытаюсь предсказать, воспроизводится ли песня с использованием открытой версии или нет, используя python, изучение лыжного набора и метод LinearSVC.Получает ли LinearSVC качественные данные?

Мои входные данные:

enter image description here

я уже закодированы колонку продукта как 1 и 0 (1, если открытый 0, если нет).

Такие вещи, как контекст, будут влиять на тип продукта. Мне было интересно, нужно ли мне делать все численные переменные для LinearSVC для их обработки.

ответ

1

В целом, превращение категориальных функций в непрерывные функции является субоптимальным решением.

При использовании машины вектора поддержки в качестве классификатора (или даже логистической регрессии) не должно быть проблем с обработкой категориальных функций, кодируемых 0-1. В тех случаях, когда у вас есть категориальные функции, которые нельзя преобразовать в двоичный (например, ваш столбец «контекст»), я бы порекомендовал один-горячий кодирование данных (here).

Возможно, возникла проблема, если есть слишком много уникальных записей для конкретной функции. В этом случае одноразовое кодирование будет производить столько функций, сколько уникальных записей, которые могут быть дорогостоящими.