Вопрос обновлен !!
У меня есть 15 столбцов категориальных переменных, и я хочу корреляцию между ними. Набор данных в длину и 20000 набор данных выглядит следующим образом:Корреляция для нескольких категориальных переменных tableau
state | job | hair_color | car_color | marital_status
NY | cs | brown | blue | s
FL | mt | black | blue | d
NY | md | blond | white | m
NY | cs | brown | red | s
Обратите внимание, что первая строка и последний ряд NY
, cs
и s
повторы. Я хочу узнать, какие шаблоны. NY и cs сильно коррелированы. Мне нужно ранжировать комбинацию значений в столбцах. Надеюсь, теперь вопрос имеет смысл. Обратите внимание, что это NOT 0Cили cs
. О том, сколько раз NY
и blond
появляются вместе в одной строке. Мне нужно сделать это для всех значений по строкам. Надеюсь, теперь это имеет смысл.
Я попытался использовать cor()
с R, но поскольку это категориальные переменные, функция не работает. Как я могу работать с этим набором данных, чтобы найти корреляцию между ними?
Можете ли вы уточнить, что вы пытаетесь измерить с 'кор()'? Например, это 'cor (c (« красный »,« синий »), c (« красный »,« желтый »))' больше, чем, или меньше, чем cor (c («красный», синий "), c (" красный "," коричневый "))? –
Нет, не обычный. Для id 1 у меня есть 15 цветов, для id 2 других 15 цветов, и у меня 20 000 id. Цвета не повторяются по id. Я хочу найти, как каждый цвет коррелирует с другими цветами. С 'cor()', R возвращает матрицу таблицы со всеми переменными и как каждая переменная коррелирует. Цвета переменной не являются обычными, они просто категоричны. Есть смысл, что я пытаюсь сделать? – Gilbert
Да, но для 16 переменных вместо 2. – Gilbert