альфа и бета ошибки являются статистические показатели, более широко известный как тип I и ошибки типа II, соответственно. В статистических терминах альфа-ошибка - это вероятность отклонения нулевой гипотезы, учитывая, что она истинна; бета-ошибка - это вероятность утверждения нулевой гипотезы, если она неверна (сравните, например, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996198/).
В случае записи связи нулевой гитезис состоит в том, что пара записей является совпадением, то есть две записи представляют один и тот же объект. Таким образом, альфа-ошибка - это вероятность маркировки пары как несоответствия, учитывая, что она действительно соответствует (false negative). Эта ошибка рассчитывается как: (количество совпадений, классифицированных как «не-ссылка»)/(количество совпадений). [1] В приведенном выше примере имеется 4 совпадения, из которых 1 не распознается, поэтому альфа-ошибка равна 1/4 = 0,25.
Аналогично, бета-ошибка - это вероятность классификации пары в качестве соответствия, учитывая, что она действительно является несоответствием (ложноположительным). Он рассчитывается как (количество несоответствий, классифицированных как «ссылка»)/(количество несоответствий). В приведенном выше примере, нет ложных срабатываний классификации, поэтому бета ошибка 0. Предположим другую классификационную таблицу:
classification
true status N P L
FALSE 2 0 2
TRUE 1 0 3
В этом случае, есть 4 не-матчей, из которых 2 ложно классифицированы как ссылки, поэтому бета-ошибка равна 2/4 = 0,5.
И, наконец, точность - это только пропорция правильных классификаций среди всех пар (см. https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers#Single_metrics). В таблице классификации из вопроса есть 7 правильных классификаций (4 несоответствия, 3 совпадения), поэтому точность 7/8 = 0,875.
[1] Я использую '(non) link' вместо '(non) match', когда я имею в виду результат алгоритма классификации в отличие от реального состояния.
Спасибо, очень четкое объяснение –