2016-04-27 4 views
0

В ответ на ответ @ j.jerrod.taylor позвольте мне перефразировать мой вопрос, чтобы устранить любое недоразумение.Плавные значения с использованием bin Границы: Где вы устанавливаете значение, которое находится справа между нижней и верхней границей?

Я новичок в Data Mining и изучаю, как обрабатывать шумные данные, сглаживая мои данные с помощью метода Equal-width/Distance Binning через «Bin Boundaries». Предположим, что набор данных 1,2,2,3,5,6,6,7,7,8,9. Я хочу, чтобы выполнить:

  1. расстояние биннинга 3 бункеров и
  2. Smooth значений БИН границ на основе значений Binned в # 1.

на основе определения в (Han, Камбер, пей, 2012, интеллектуальный анализ данных Основные понятия и методы, Раздел 3.2.2 зашумленных данных):

В сглаживающий БИН границ, минимального и максимальные значения в данном бункере идентифицируются как границы бункера. Каждое значение бункера затем заменяется ближайшим граничным значением.

  • Интервал ширина = (макс-мин)/к = (9-1)/3 = 2,7
  • интервалы Bin = [1,3.7), [3.7,6.4), [6,4, 9.1]

  • оригинальный Bin1: 1,2,2,3 | Границы бинов: (1,3) | Гладкие значения по Bin Границы: 1,1,1,3

  • original Bin2: 5,6,6 | Границы бина: (5,6) | Гладкие значения по Bin Границы: 5,6,6
  • original Bin3: 7,7,8,9 | Границы бинов: (7,9) | Гладкие значения БИН границ: 7,7, , 9

Вопрос: - где же принадлежат в Bin3, когда Binned использованием метода Bin границ, так как это +1 от 7 и -1 от 9?

ответ

0

UPDATE С правильный ответ:

Мой класс наконец покрытый эту тему, и ответ на мой вопрос состоит в том, что 8 может принадлежать либо 7, либо 9. Этот сценарий описывается как «разрыв связи», где значение равно расстоянию от любой границы. Допустимо, что все такие значения будут последовательно привязаны к одной и той же границе.

Вот реальный пример анализа бумаги NIH, что объясняет, используя «связать нарушение», когда они сталкиваются значения, равные расстояний: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3807594/

0

Если это проблема, вы неправильно вычисляете ширину бункера. Например, создание гистограммы является примером бининга данных.

Вы можете прочитать this ответ на перекрестный. Но в целом, если вы пытаетесь использовать целые числа, то ваша граница будет двойной.

Например, если вы хотите, чтобы все в пределах от 2 до 6 находилось в одном бункере, фактическая граница будет от 1,5 до 6,5. Поскольку все ваши данные являются целыми числами, нет никаких шансов, чтобы что-либо не было классифицировано.

Редактировать: У меня также есть одна и та же книга, хотя мне кажется, что у меня другая версия, потому что раздел «Дискретизация данных» находится в главе 2 вместо главы 3, как вы указали. Основываясь на вашем вопросе, кажется, что вы еще не понимаете концепцию.

Ниже приведена за исключением страницы 88 главы 2 «Предварительная обработка данных». Я использую второе издание текста.

Например, значение атрибутов может быть дискретизируется путем применения равной шириной или равная частота биннинга, а затем заменить каждое значение бен в бункере означает или медианы, как и в сглаживания бункера означает или сглаживание бункер медиан, соответственно. 8 не принадлежит нигде, кроме как в бункере 3. Это дает вам два варианта. Вы можете взять среднее/медиану всех чисел, которые попадают в корзину 3, или вы можете использовать bin 3 как категорию.

Здание на вашем примере, мы можем взять среднее из 4 чисел в бункере 3. Это дает нам 7.75. Мы теперь будем использовать 7.75 для четырех чисел, которые находятся в этом бункере, вместо 7,7,8 и 9.

Второй вариант - использовать номер ячейки. Например, все в бункере 3 получит категорию ярлык 3, все в бункере 2 получит ярлык 2 и т.д.

+0

Вы поняли мой вопрос о «сглаживающих значениях по границам БИН» и «границы бункера ». Я перефразировал свой вопрос, чтобы включить все детали, которые приводят к моему вопросу. – user2771721

+0

@ user2771721 Я ничего не понял. См. Мое редактирование. –

 Смежные вопросы

  • Нет связанных вопросов^_^