Ошибки I и II рода (Type I errors, type II errors)

Разделы: Метрики

Loginom: Качество бинарной классификации (визуализатор)

Ошибки I и II рода — это ключевые понятия, используемые в анализе данных и математической статистике.

  • В анализе данных ошибки I и II рода используются для оценки точности моделей бинарной классификации.
  • В математической статистике ошибки I и II рода применяются при проверке статистических гипотез .

Рассмотрим пример. Пусть банк использует систему классификации заёмщиков на кредитоспособных и некредитоспособных. При этом первым кредит выдаётся, а вторые получат отказ. Таким образом, обнаружение некредитоспособного заёмщика можно рассматривать как "сигнал тревоги", сообщающий о возможных рисках.

Любой реальный классификатор совершает ошибки. В нашем случае таких ошибок может быть две:

  • Кредитоспособный заёмщик распознается моделью как некредитоспособный и ему отказывается в кредите. Данный случай можно трактовать как "ложную тревогу".
  • Некредитоспособный заёмщик распознаётся как кредитоспособный и ему ошибочно выдаётся кредит. Данный случай можно рассматривать как "пропуск цели".

Несложно увидеть, что эти ошибки неравноценны по связанным с ними проблемам. В случае "ложной тревоги" потери банка составят только проценты по невыданному кредиту. В случае "пропуска цели" можно потерять всю сумму выданного кредита. Поэтому системе важнее не допустить "пропуск цели", чем "ложную тревогу".

Поскольку с точки зрения логики задачи нам важнее правильно распознать некредитоспособного заёмщика (чем ошибиться распознавании кредитоспособного) будем называть соответствующий исход классификации положительным (заёмщик некредитоспособен), а противоположный - отрицательным (заемщик кредитоспособен). Тогда возможны следующие исходы классификации:

  • Некредитоспособный заёмщик классифицирован как некредитоспособный, т.е. положительный класс распознан как положительный. Наблюдения, для которых это имеет место называются истинно-положительными (true positive - TP).
  • Кредитоспособный заёмщик классифицирован как кредитоспособный, т.е. отрицательный класс распознан как отрицательный. Наблюдения, которых это имеет место, называются истинно отрицательными (true negative - TN).
  • Кредитоспособный заёмщик классифицирован как некредитоспособный, т.е. имела место ошибка, в результате которой отрицательный класс был распознан как положительный. Наблюдения, для которых был получен такой исход классификации, называются ложно-положительными (false positive - FP), а ошибка классификации называется ошибкой I рода.
  • Некредитоспособный заёмщик распознан как кредитоспособный, т.е. имела место ошибка, в результате которой положительный класс был распознан как отрицательный. Наблюдения, для которых был получен такой исход классификации, называются ложно-отрицательными (false negative - FN), а ошибка классификации называется ошибкой II рода.

Таким образом, ошибка I рода или ложно-положительный исход классификации имеет место когда отрицательное наблюдение распознано моделью как положительное. Ошибкой II рода, или ложно-отрицательным исходом классификации называют случай, когда положительное наблюдение распознано как отрицательное. Поясним это с помощью таблицы.

Классифицировано\Факт Некредитоспособный (положительный) Кредитоспособный (отрицательный)
Некредитоспособный (положительный) Ошибки нет (истинно-положительный, True Positive) Ошибка I рода (ложно-положительный, False Positive), ложная тревога
Кредитоспособный (отрицательный) Ошибка II рода (ложно-отрицательный, False Negative), пропуск цели Ошибки нет (истинно-отрицательный, True Negative)

После классификации моделью всех обучающих примеров определяется число правильных классификаций и число ошибок I и II рода. Затем вычисляются чувствительность и специфичность классификатора и на их основе оценивается точность бинарной модели с помощью ROC-кривой.

При проверке статистических гипотез ошибка I рода, называемая также "ложно-положительный вывод", заключается в отклонении нулевой гипотезы в случае, когда она является истинной. Ошибка II рода, называемая "ложно-отрицательный вывод" состоит в принятии нулевой гипотезы, когда она является ложной. Поясним сказанное с помощью таблицы:

Нулевая гипотеза Ложная Истинная
Отклоняется Ошибки нет Ошибка I рода (ложно-положительный вывод)
Принимается Ошибка II рода (ложно-отрицательный вывод) Ошибки нет

Вероятность ошибки I рода в статистике называют уровнем значимости.

results matching ""

    No results matching ""