2009-04-01 21 views
5

Я хотел бы объединить несколько показателей узлов в графике социальной сети в одно значение для рангового упорядочения узлов:Правильный способ стандартизации/масштабирования/нормализации нескольких переменных после распределения степенного закона для использования в линейной комбинации

in_degree + betweenness_centrality = informal_power_index

проблема заключается в том, что in_degree и betweenness_centrality измеряются в разных масштабах, скажем, 0-15 против 0-35000 и следовать закон распределения мощности (по крайней мере, точно не нормальное распределение)

есть ли хороший способ перемасштабировать переменные, так что один w не доминируют над другим при определении informal_power_index?

три очевидных подхода:

  • Стандартизация переменных (вычесть mean и деление на stddev). Похоже, что это слишком сильно раздавило распространение, скрывая огромную разницу между значением в длинном хвосте и рядом с пиком.
  • Повторное масштабирование переменных в диапазоне [0,1] путем вычитания min(variable) и деления на max(variable). Это похоже на устранение проблемы, поскольку она не изменит форму дистрибутива, но, возможно, это не решит проблему? В частности, средства будут разными.
  • Выравнивание средств путем деления каждого значения на mean(variable). Это не будет учитывать разницу в масштабах, но, возможно, средние значения важнее для сравнения?

Любые другие идеи?

ответ

1

вы можете перевести каждый процент в процентах, а затем применить каждый к известному qunantity. Затем используйте сумму нового значения.

((1 - (in_degee/15) * 2000) + ((1 -?. (Betweenness_centrality/35000) * 2000) =

+0

Не будет ли такой подход иметь такую ​​же проблему, как метод стандартизации, он будет раздавить распределение, так что процентили 95 и 99 выглядят довольно близко, даже если они являются мирами друг от друга (подумайте о банковском счете Bill Gate против ... моего!) –

+0

Этот метод помещает все в пределах процента. Он не основан на том, как число отклоняется от среднего. Но, возможно, я не понимаю, какая у вас методология. 2000 год был суровым. Чем больше, тем больше уникальных значений могут быть созданы. – Thad

4

Вы, кажется, есть сильное чувство основных распределений Естественным перемасштабирования состоит в том, чтобы заменить каждую переменную своей вероятностью. Или, если ваша модель неполна, выберите преобразование, которое приблизительно соответствует этому. Если это не так, вот приблизительный подход: если у вас есть много одномерных данных, из которых можно построить гистограмму variate), вы можете преобразовать каждую из 10-балльной шкалы в зависимости от того, находится ли она в 0-10% процентиле или 10-20% -первизиле ... 90-100% процентиля. Эти трансформированные вариации имеют по конструкции единую распределение на 1,2, ..., 10, и вы можете комбинировать их, как хотите.

+0

Это очень крутая идея. Я попробую! –

0

нормализация к [0,1] была бы моей короткой рекомендацией ответа, чтобы объединить 2 значения, поскольку она будет поддерживать форму распределения, как вы упомянули, и должна решить проблему объединения значений.

Если распределение двух переменных отличается от того, что кажется вероятным, это не даст вам то, что я думаю, что вы после, что является комбинированной мерой того, где каждая переменная находится в пределах данного распределения. вам придется придумать метрику, которая определяет, где в данном распределении значение лежит, это можно было бы сделать многими способами, одним из которых было бы определить, сколько стандартных отклонений от среднего значения задано, тогда вы могли бы объедините эти 2 значения каким-либо образом, чтобы получить свой индекс. (добавление может быть уже недостаточным)

Вам нужно будет решить, что наиболее удобно для наборов данных, на которые вы смотрите.стандартные отклонения могут быть бессмысленными для вашего приложения, но вам нужно посмотреть статистические меры, связанные с распределением, и объединить их, а не расчевывать абсолютные значения, нормализованные или нет.

+0

В вашем втором абзаце описывается стандартизирующий подход, когда вы переходите от необработанного значения метрики к числу стандартных отклонений значение от среднего. Все это, кажется, лучше всего работает с обычными дистрибутивами, и менее хорошо с другими дисками –

+0

согласен, как я указал в третьем абзаце, вам нужно посмотреть статистические измерения, относящиеся к вашему набору данных, если они являются распределением мощности, это дисперсия, моменты , асимметрия и, возможно, эксцесс – 2009-04-01 21:50:10

1

Очень интересный вопрос. Могли бы что-то вроде этой работы:

Давайте предположим, что мы хотим масштабировать обе переменные в диапазоне [-1,1] Возьмем пример betweeness_centrality, который имеет диапазон 0-35000

  1. Выберите большое количество в порядке диапазона переменной. В качестве примера можно выбрать 25 000
  2. создать 25 000 ящиков в исходном диапазоне [0-35000] и 25 000 ячеек в новом диапазоне [-1,1]
  3. Для каждого номера xi найдите корзину #, оно попадает в оригинальный bin. Пусть это B-i
  4. Найдите диапазон B-i в диапазоне [-1,1].
  5. Используйте max/min диапазона B-i в [-1,1] как масштабированную версию x-i.

Это сохраняет распределение степенного закона, а также уменьшает его до [-1,1] и не имеет проблемы, как это испытывает (x-mean)/sd.