2

Хорошо. Теперь этот вопрос довольно тяжелый. Я приведу вам пример.Как рассчитать коэффициент ошибок классификации

Теперь левые номера мой алгоритм классификации и правильные номера оригинальные номера класса

177 86 
177 86 
177 86 
177 86 
177 86 
177 86 
177 86 
177 86 
177 86 
177 89 
177 89 
177 89 
177 89 
177 89 
177 89 
177 89 

Так вот мой алгоритм объединены 2 различных классов в 1. Как вы можете видеть это слилось класс 86 и 89 в один класс. Итак, какова будет ошибка в приведенном выше примере?

Или вот другой пример

203 7 
203 7 
203 7 
203 7 
16 7 
203 7 
17 7 
16 7 
203 7 

В приведенном выше примере левые номера мой алгоритм классификации и правильные номера оригинальные идентификаторы класса. Как видно выше, мисс классифицирует 3 продукта (я классифицирую такие же коммерческие продукты). Итак, на этом примере, каков будет коэффициент ошибок? Как бы вы вычислили.

Этот вопрос довольно сложный и сложный. Мы закончили классификацию, но мы не можем найти правильный алгоритм для расчета вероятности успеха: D

ответ

3

Вот удлиненно пример, реальная confuson матрица с 10 входных классов "0" - "9" (рукописные цифры), и 10 выходных кластеров с маркировкой А - J.

Confusion matrix for 5620 optdigits: 

True 0 - 9 down, clusters A - J across 
----------------------------------------------------- 
     A B C D E F G H I J 
----------------------------------------------------- 
0: 2   4   1  546 1 
1: 71 249  11 1 6   228 5 
2: 13 5  64 1 13 1  460 
3: 29 2  507  20   5 9 
4:  33 483   4 38   5 3 2 
5: 1 1 2 58 3   480 13 
6: 2 1 2  294   1   1 257 
7: 1 5 1   546   6 7 
8: 415 15 2 5 3 12  13 87 2 
9: 46 72 2 357  35 1 47 2 
---------------------------------------------------- 
    580 383 496 1002 307 670 549 557 810 266 estimates in each cluster 

y class sizes: [554 571 557 572 568 558 558 566 554 562] 
kmeans cluster sizes: [ 580 383 496 1002 307 670 549 557 810 266] 

Например, кластер A имеет 580 точек данных, 415 из которых составляют «8»; В кластере B имеется 383 точки данных, из которых 249 - «1»; и так далее.

Проблема заключается в том, что классы вывода скремблируются, переставляются; они соответствуют в таком порядке, с подсчетов:

 A B C D E F G H I J 
     8 1 4 3 6 7 0 5 2 6 
    415 249 483 507 294 546 546 480 460 257 

Один мог сказать, что "процент успеха" является 75% = (415 + 249 + 483 + 507 + 294 + 546 + 546 + 480 + 460 + 257)/5620
, но это отбрасывает полезную информацию — здесь, что E и J говорят «6», и ни один кластер не говорит «9».

Итак, добавьте самые большие числа в каждом столбце матрицы замешательства и разделите их на общее количество.
Но, как считать перекрывающиеся/отсутствующие кластеры, , как 2 "6", нет "9" здесь?
Не знаю, как обычно согласованно (сомните, что на практике используется Hungarian algorithm ).

Нижняя линия: не выбрасывайте информацию; посмотрите на всю матрицу путаницы.

NB такой «показатель успеха» будет оптимистичным для новых данных!
Обычно принято разделять данные на 2/3 «набор для обучения» и 1/3 «тестовый набор», поезд, например. k-средства только на 2/3,
затем измерять путаницу/коэффициент успеха на тестовом наборе — в целом хуже, чем на тренировочном наборе.
Гораздо больше можно сказать; см., например, Cross-validation.

0

Вы должны определить критерии ошибки, если хотите оценить эффективность алгоритма, поэтому я не уверен, что именно вы спрашиваете. В некоторых алгоритмах кластеризации и машинного обучения вы определяете показатель ошибки и минимизируете его.

Взгляните на эту https://en.wikipedia.org/wiki/Confusion_matrix , чтобы получить некоторые идеи

+0

Я задаю критерии. – MonsterMMORPG

0

Вы должны определить метрику ошибок измерить. В вашем случае, простой метод должен быть, чтобы найти отображение свойств вашего продукта, как

p = properties(id) 

где id является идентификатором продукта, и p, скорее всего, будет вектором с каждой записью различных свойств. Тогда можно определить функцию ошибки e (или расстояние) между двумя продуктами, как

e = d(p1, p2) 

Конечно, каждый свойство должно быть оценено, чтобы число в этой функции. Тогда эта функция ошибки может быть использована в алгоритме классификации и обучения.

В вашем втором примере кажется, что вы рассматриваете пару (203 7) как успешную классификацию, поэтому я думаю, что у вас уже есть метрика. Вы можете быть более конкретным, чтобы получить лучший ответ.

+0

хорошо, я спрашиваю метрику на этот вопрос. мы должны определить нашу скорость успеха ошибок нашими условиями, и я задаю ваши идеи об этом, как определить. – MonsterMMORPG

+0

Итак, я описал здесь общую идею. Свойством продукта может быть его тип или цена. Если люди предпочитают продукт той же цены, вы можете просто использовать d (price1, price2) – unsym

+0

Я думаю, что вы не понимаете вопрос правильно. Представьте, что у вас есть 100 различных продуктов, и каждый продукт продается у 10 разных продавцов, что составляет всего 1000 продуктов. Поэтому вы пытаетесь правильно группировать каждый продукт, но алгоритм классифицируется как приведенные выше примеры. Итак, как бы вы вычислили коэффициент успеха классификации алгоритмов. – MonsterMMORPG