Я хотел бы объединить несколько показателей узлов в графике социальной сети в одно значение для рангового упорядочения узлов:Правильный способ стандартизации/масштабирования/нормализации нескольких переменных после распределения степенного закона для использования в линейной комбинации
in_degree + betweenness_centrality = informal_power_index
проблема заключается в том, что in_degree
и betweenness_centrality
измеряются в разных масштабах, скажем, 0-15 против 0-35000 и следовать закон распределения мощности (по крайней мере, точно не нормальное распределение)
есть ли хороший способ перемасштабировать переменные, так что один w не доминируют над другим при определении informal_power_index
?
три очевидных подхода:
- Стандартизация переменных (вычесть
mean
и деление наstddev
). Похоже, что это слишком сильно раздавило распространение, скрывая огромную разницу между значением в длинном хвосте и рядом с пиком. - Повторное масштабирование переменных в диапазоне [0,1] путем вычитания
min(variable)
и деления наmax(variable)
. Это похоже на устранение проблемы, поскольку она не изменит форму дистрибутива, но, возможно, это не решит проблему? В частности, средства будут разными. - Выравнивание средств путем деления каждого значения на
mean(variable)
. Это не будет учитывать разницу в масштабах, но, возможно, средние значения важнее для сравнения?
Любые другие идеи?
Не будет ли такой подход иметь такую же проблему, как метод стандартизации, он будет раздавить распределение, так что процентили 95 и 99 выглядят довольно близко, даже если они являются мирами друг от друга (подумайте о банковском счете Bill Gate против ... моего!) –
Этот метод помещает все в пределах процента. Он не основан на том, как число отклоняется от среднего. Но, возможно, я не понимаю, какая у вас методология. 2000 год был суровым. Чем больше, тем больше уникальных значений могут быть созданы. – Thad