2016-07-13 8 views
1

Недавно я изучал пакет R RecordLinkage. На очень маленьком примере с связывая 2 наборов данных, один с 8 рядами, а другой с 11, я получаю результаты:R RecordLinkage package, Понимание альфа-и бета-ошибок

Linkage Data Set 

8 records in data set 1 
11 records in data set 2 
8 record pairs 

4 matches 
4 non-matches 
0 pairs with unknown status 


Weight distribution: 

[0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,0.9] (0.9,1] 
     2   0   2   0   1   3 

3 links detected 
0 possible links detected 
5 non-links detected 

alpha error: 0.250000 
beta error: 0.000000 
accuracy: 0.875000 


Classification table: 

      classification 
true status N P L 
     FALSE 4 0 0 
     TRUE 1 0 3 

Что я не в состоянии понять, является связь между альфа-ошибки, бета ошибки и точности с таблицей классификации. Где цифры ниже идет от точно, как они рассчитывали:

alpha error: 0.250000 
beta error: 0.000000 
accuracy: 0.875000 

Любая помощь очень ценится

ответ

2

альфа и бета ошибки являются статистические показатели, более широко известный как тип I и ошибки типа II, соответственно. В статистических терминах альфа-ошибка - это вероятность отклонения нулевой гипотезы, учитывая, что она истинна; бета-ошибка - это вероятность утверждения нулевой гипотезы, если она неверна (сравните, например, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996198/).

В случае записи связи нулевой гитезис состоит в том, что пара записей является совпадением, то есть две записи представляют один и тот же объект. Таким образом, альфа-ошибка - это вероятность маркировки пары как несоответствия, учитывая, что она действительно соответствует (false negative). Эта ошибка рассчитывается как: (количество совпадений, классифицированных как «не-ссылка»)/(количество совпадений). [1] В приведенном выше примере имеется 4 совпадения, из которых 1 не распознается, поэтому альфа-ошибка равна 1/4 = 0,25.

Аналогично, бета-ошибка - это вероятность классификации пары в качестве соответствия, учитывая, что она действительно является несоответствием (ложноположительным). Он рассчитывается как (количество несоответствий, классифицированных как «ссылка»)/(количество несоответствий). В приведенном выше примере, нет ложных срабатываний классификации, поэтому бета ошибка 0. Предположим другую классификационную таблицу:

  classification 
true status N P L 
     FALSE 2 0 2 
     TRUE 1 0 3 

В этом случае, есть 4 не-матчей, из которых 2 ложно классифицированы как ссылки, поэтому бета-ошибка равна 2/4 = 0,5.

И, наконец, точность - это только пропорция правильных классификаций среди всех пар (см. https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers#Single_metrics). В таблице классификации из вопроса есть 7 правильных классификаций (4 несоответствия, 3 совпадения), поэтому точность 7/8 = 0,875.

[1] Я использую '(non) link' вместо '(non) match', когда я имею в виду результат алгоритма классификации в отличие от реального состояния.

+0

Спасибо, очень четкое объяснение –

 Смежные вопросы

  • Нет связанных вопросов^_^