Анализ с помощью характеристической кривой (ROC-analisys)

Синонимы: ROC-анализ

Разделы: Визуализация, Алгоритмы

Loginom: Качество бинарной классификации (визуализатор)

Решения: Loginom Scorecard Modeler

ROC-анализ представляет собой графический метод оценки качества работы бинарного классификатора и выбора дискриминационного порога для разделения классов. В основе метода лежит построение ROC-кривой (ROC - receiver operating characteristic – рабочая характеристика приёмника) - графического представления зависимости двух величин: чувствительности и специфичности.

Под чувствительностью ( – sensitivity) бинарной модели понимается доля истинно-положительных классификаций в общем числе положительных наблюдений ( – true-positive rate):

Это есть доля правильно классифицированных положительных наблюдений. Следовательно, чем выше чувствительность, тем более надёжно классификатор распознаёт положительные примеры.

Под специфичностью ( – specify) модели понимается доля истинно-отрицательных классификаций в общем числе отрицательных наблюдений ( – true-negative rate):

Таким образом, чем выше специфичность, тем более надёжно классификатор распознаёт отрицательные наблюдения.

По вертикальной оси графика ROC-кривой представлена чувствительность, а по горизонтальной – величина, равная . Можно показать, что

Это доля ложно-положительных классификаций в общем числе отрицательных классификаций, которую можно интерпретировать как вероятность "ложной тревоги".

Таким образом, ROC-кривая отражает связь между вероятностью ложной тревоги (доли ложно-положительных классификаций) и вероятности "правильного обнаружения" (доли истинно-положительных классификаций). С ростом чувствительности растёт надёжность распознавания положительных наблюдений (снижается вероятность "пропуска цели"), но при этом растёт вероятность ложной тревоги.

ROC-кривая

На рисунке линии [(0,0); (0, 100)] и [(0,100); (100, 100)] образуют ROC-кривую идеального классификатора, когда рост чувствительности (надёжности классификации) вообще не сопровождается ростом вероятности ложной тревоги. Это мало реальный случай, когда точность классификации положительных наблюдений вообще не зависит от уровня дискриминационного порога.

Обычно ROC-кривая реальной модели имеет параболическую форму с различной кривизной. При этом, чем выше кривизна и кривая ближе к идеальной, тем лучше работает модель. При ухудшении качества модели ROC-кривая вырождается в диагональную прямую линию, которая соответствует «бесполезному» классификатору, который предсказывает классы случайным образом.

results matching ""

    No results matching ""