9

Есть три способа измерения примеси:Дерево решений Обучение и Примеси

Entropy

Gini Index

Classification Error

Каковы различия и соответствующие случаи использования для каждого метода?

+1

Примчание чего? – Davidann

+2

@ Давид: см. Здесь: http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity и здесь: http://people.revoledu.com/kardi/tutorial/DecisionTree/how-to-measure-impurity.htm –

ответ

5

Если P_i являются очень мало, то делать умножение на очень малых чисел (индекс Джини) может привести к ошибкам округления. Из-за этого лучше добавить журналы (Entropy). Ошибка классификации, следующая за вашим определением, дает валовую оценку, так как она использует единственный наибольший p_i для вычисления его значения.

+0

Я не вижу, как бы у вас были эти проблемы при расщеплении узла ... Случайные классификаторы леса используют примесь Gini и, как сообщается, имеют более высокую точность, чем большинство других классификаторов на основе дерева. – Benjamin

+2

@Benjamin: Я ничего не вижу в вопросе, который специфичен для разделения узла. – Davidann

2

Я нашел this description of impurity measures, что очень полезно. Если вы не внедряете с нуля, большинство существующих реализаций используют одну предопределенную меру примеси. Отметим также, что индекс Джини не является прямой мерой нечистоты, а не его первоначальной формулировкой, и что существует намного больше, чем указано выше.

Я не уверен, что я понимаю заботу о небольших числах и меру примесей Джини ... Я не могу представить, как это произойдет при разделении узла.

0

Я видел различные усилия по неофициальному руководству по этому вопросу, начиная от «если вы используете одну из обычных показателей, там не будет большой разницы», к гораздо более конкретным рекомендациям. На самом деле, единственный способ узнать с уверенностью, который лучше всего работает, - это попробовать всех кандидатов.

Во всяком случае, вот некоторые перспективы из Salford Systems (ВОЗ поставщиков):

Do Splitting Rules Really Matter?

3

Разница между энтропией и другими мерами примеси, и в самом деле часто разница между информационными теоретическими подходами в области машинного обучения и другие подходы, заключается в том, что энтропия была математически доказана для понимания концепции «информации». Существует много классификационных теорем (теорем, доказывающих, что конкретная функция или математический объект является единственным объектом, удовлетворяющим набору критериев) для энтропийных мер, которые формализуют философские аргументы, оправдывающие их значение как меры «информации».

Сравните это с другими подходами (особенно статистическими методами), которые выбраны не для их философского обоснования, а прежде всего для их эмпирического обоснования - то есть они, кажется, хорошо работают в экспериментах. Причина, по которой они работают хорошо, состоит в том, что они содержат дополнительные предположения, которые могут произойти во время эксперимента.

В практическом плане это означает, что меры энтропии (A) не могут переустанавливаться при правильном использовании, поскольку они свободны от каких-либо предположений о данных, (B) с большей вероятностью работают лучше, чем случайные, поскольку они обобщают на любой (C) производительность для конкретных наборов данных может быть не такой хорошей, как меры, принимающие предположения.

При принятии решения о том, какие меры следует использовать для машинного обучения, это часто сводится к долгосрочным и краткосрочным преимуществам и ремонтопригодности. Энтропийные меры часто работают долговременно (A) и (B), и если что-то пойдет не так, легче отследить и объяснить, почему (например, ошибка с получением данных обучения).Другие подходы, согласно (C), могут дать краткосрочные выгоды, но если они перестанут работать, это может быть очень трудно отличить, скажем, ошибка в инфраструктуре с подлинным изменением данных, в которых предположения больше не выполняются.

Классический пример, когда модели внезапно прекратили работу, - это глобальный финансовый кризис. Банкиры, которым были предоставлены бонусы за краткосрочную прибыль, поэтому они написали статистические модели, которые будут хорошо выполнять краткосрочные и в значительной степени игнорируемые теоретические модели информации.