Я делаю проект, сравнивающий эффективность различных алгоритмов классификации, но я застрял в расстройстве. Данные можно найти здесь: http://archive.ics.uci.edu/ml/datasets/Adult Проблема классификации заключается в том, составляет ли человек более 50 тыс. В год на основе данных переписи.Расчет расстояния вектора для классификации со смешанными признаками
Два примера записи следующим образом:
45, Private, 98092, HS-ГРАД, 9, женатые-CIV-супруга, Менеджер по продажам, муж, белый, Мужчина, 0, 0, 60, United-государства , < = 50K
50, Self-эй-не-вкл, 386397, бакалавры, 13, женат-стро-супруг, Продажи, Муж, белый, мужчина, 0, 0, 60, United-States, < = 50K
Я знаком с использованием евклидова расстояния, чтобы рассчитать разницу между векторами, но я не уверен, как работать с сочетанием непрерывных и дискретных атрибутов. Существуют ли эффективные методы для представления разницы между двумя векторами значимым образом? Мне тяжело обволакивать, как большие значения, такие как третий атрибут (вес, рассчитанный людьми, которые извлекли набор данных, основанный на факторах, так что аналогичные веса должны иметь схожие атрибуты), а различия между ними могут сохранять значение от дискретных признаков, таких как мужчина или женщина, который является только евклидовым расстоянием 1, если я правильно понимаю метод. Я уверен, что некоторые категории могут быть удалены, но я не хочу, чтобы что-то, что факторы в классификации значительно. Сначала я занимаюсь k-NN, как только получаю это, потом байесовский классификатор и, наконец, модель дерева решений, например C4.5 или ID3, если у меня есть время.
Да, я определенно думал о том, чтобы отбросить эту категорию, потому что проблема, которую вы заметили с третьим номером, такая же, как я. Я просто задавался вопросом, есть ли способ превратить его или другие категории в значимую, но не чрезмерно эффективную ценность. Я рассмотрел уменьшение размеров, но мне, вероятно, придется поэкспериментировать, чтобы увидеть, какие из них имеют смысл, а какие нет. – Baldier
+1 для этого: «использование k-NN напрямую не будет работать, потому что идея« расстояния »между несколькими диссоциальными измерениями не определена» :) – bendaizer