У меня есть набор данных, который содержит как категориальные (номинальные, так и порядковые) и числовые атрибуты. Я хочу рассчитать матрицу подобия (dis) по моим наблюдениям, используя эти смешанные атрибуты. Использование daisy() функции пакета кластеров в R, можно легко получить матрицу несходства следующим образом:Питон-эквивалент daisy() в кластерном пакете R
if(!require("cluster")) { install.packages("cluster"); require("cluster") }
data(flower)
as.matrix(daisy(flower, metric = "gower"))
Это использует Гауэр метрику, чтобы иметь дело с номинальным переменным. Есть ли эквивалент Python функции daisy()
в R?
Или, может быть, любая другая функция модуля, которая позволяет использовать метрику Gower или что-то подобное для вычисления матрицы подобия (dis) для набора данных со смешанными (номинальными, числовыми) атрибутами?
Спасибо, вы знаете, любой из метрик коробки расстояния, доступных в scikitlearn, которые могут совместно иметь дело с категорическими и числовыми переменными? – Rhubarb
Я этого не делаю. Их документация хороша, поэтому поиск должен быстро выявлять результаты, если он существует. Однако мой подход состоял бы в том, чтобы определить мою собственную небольшую дистанционную функцию, которая обрабатывала это, как я хотел, и передать это на 'pdist'. Таким образом, я мог бы контролировать относительную важность различных аспектов этого расчета.Если бы это стало медленным, я бы либо использовал numba, либо Cython, чтобы нацелить реализацию этой функции на более низком уровне, чтобы ускорить ее. – ely