Существует множество методов для «включения» категориальных атрибутов в виде чисел.
Например, если категориальная переменная, которая может принимать значения red
, green
и blue
, мы можем тривиальным закодировать это как три атрибутов isRed={0,1}
, isGreen={0,1}
и isBlue={0,1}
.
Хотя это популярно и, очевидно, «работает», многие люди ошибаются, полагая, что последующие цифровые методы обработки приведут к разумным результатам.
Если вы используете, например, k-средства в кодированном таким образом наборе данных, результат, скорее всего, не будет слишком значимым впоследствии. В частности, если вы получаете среднее значение, такое как isRed=.3 isGreen=.2 isBlue=.5
- вы не можете разумно сопоставить это с исходными данными. Хуже того, с некоторыми алгоритмами вы даже можете получить isRed=0 isGreen=0 isBlue=0
.
Я предлагаю вам попробовать работать с фактами и избегать кодирования в максимально возможной степени. Если у вас есть хороший инструмент, он позволит вам использовать смешанные типы данных. Не делать попытаться сделать все числовым вектором. Этот математический вид данных весьма ограничен, и данные не дают вам всех математических предположений, которые вам необходимо извлечь из этого представления (например, метрических пространств).