-1

У меня есть несбалансированный числовой набор данных, который выглядит следующим образом:Binning Imbalanced данные

Data set.

Мне нужно записать данные в 8 ящиков, однако, если бы я установил бинды одинакового размера, я бы получил все свои данные только в два ящика, а остальные в середине были бы пустыми.

Есть ли статистический или математический метод, который дискретизирует данные с мелкозернистыми бункерами, когда есть много точек данных, а затем сделать их более крупнозернистыми бункерами, когда имеется несколько точек данных?

+0

это x -> x функция, так зачем вам нужен bucketing? – eliasah

+0

Сюжет просто для визуализации того, как выглядят мои данные, у меня есть вектор числовых значений: (длина = 4964, min = 1, max = 7478, mean = 5.045, stdDev = 106.6), и я хочу дискретизировать их в 8 бункера. –

ответ

0

Вы могут сортировать данные и бин в соответствии с ранг. иногда также называется «глубина». Поэтому, если ваши данные после сортировки

[1, 2, 4, 8, 16, 32] 

и вы хотели три бункера. вы бы использовали

[1, 2] [4, 8] [16, 32] 

но хорошая логика для определения центров и границ бункеров? Вероятно, вы использовали бы средства: 1,5, 6, 24 в качестве центров и полупустые значения самых больших и наименьших значений в качестве границ ячеек: [1: 3] [3:12] и [12:32].

Размеры корзины больше не интересны, потому что все они должны быть одинаково большими? Но если у вас более одной переменной, комбинации ячеек могут быть ниже среднего или выше ожидаемого. то есть указать некоторую зависимость между переменными.