Я использую дерево решений в Weka, и у меня есть некоторые непрерывные данные, поэтому, когда я использую Weka, он автоматически находит порог для меня, но по какой-то причине я хочу реализовать Tree Decision я должен знать, какой подход использовать, чтобы найти порог, чтобы дискретировать мои непрерывные данные?Метод определения порога в дереве решений для непрерывных данных
ответ
ID3 и C4.5 использование entropy эвристика для дискретизации непрерывных данных. Метод находит двоичный разрез для каждой переменной (функции). Вы можете применить тот же метод рекурсивно, чтобы получить несколько интервалов от непрерывных данных.
Предположим, что в определенном узле дерева, все экземпляры принадлежат к набору S
, и вы работаете над переменной A
и конкретная граница (вырезания) T
, информация класса энтропии разбиения, индуцированного T
, обозначается как E(A,T,S)
определяется по формуле:
|S1| |S2|
E(A, T, S) = ---- Entropy(S1) + ---- Entropy(S2)
|S| |S|
, где |S1|
это количество экземпляров в первом разделе; |S2|
- количество экземпляров во втором разделе; |S| = |S1|+|S2|
.
Для данной функции A
граница T_min
, которая минимизирует функцию энтропии по всем возможным границам раздела, выбирается как граница двоичной дискретизации.
Например, вы можете иметь переменную Length
, со всеми возможными значениями, как:
Length = {2.1, 2.8, 3.5, 8.0, 10.0, 20.0, 50.0, 51.0}
Тогда ваш T
может быть:
T = {2.1, 2.8, 3.5, 8.0, 10.0, 20.0, 50.0, 51.0}
, в котором вы режете на всех возможных Length
значения. Кроме того, можно сократить в каждой средней точке смежных Length
значений, например,
T = {2.45, 3.15, 5.75, 9.0, 15.0, 35.0, 50.5}
Во время дискретизации, вы будете перебирать все возможные T
значений и оценки, которые один получает минимальную E(A, T, S)
. Вот и все.
подробнее в этом paper, которые также описаны другие необязательные методы:
- метод ChiMerge дискретизацией.
- Метод основанного на использовании векторного квантования (LVQ)
- Метод на основе гистограммы.
Фантастический ответ! – SJB