Классификация с учетом издержек (Cost-sensitive classification)

Синонимы: Классификация, чувствительная к издержкам

Разделы: Бизнес-задачи, Алгоритмы

Loginom: Логистическая регрессия (обработчик), Нейросеть (классификация) (обработчик)

Бинарная классификация в условиях, когда издержки ошибок классификации являются неодинаковыми. Под издержками в данном случае понимаются возможные потери (убытки) – финансовые, материальные, временные, репутационные и т.д., вызванные неоптимальными управленческими решениями, принятыми из-за ошибочной классификации.

Типичным примером является классификация заёмщиков на добросовестных и недобросовестных. Ложно-положительная ошибка, или, в терминах статистики, ошибка II рода (недобросовестный заёмщик распознан как добросовестный и принято решение о выдаче ему кредита) грозит потерей всей выданной суммы кредита. Ложно-отрицательная ошибка, или ошибка I рода (добросовестный заёмщик распознан как недобросовестный и принято решение об отказе ему в кредите) грозит только потерей потенциальных процентов – реальных денег банк не теряет.

Таким образом, издержки ложно-отрицательных ошибок выше, чем ложно положительных. Поэтому модель должна минимизировать вероятность ошибок именно первого типа. Обучение классификационных моделей в условиях неравенства издержек, обычно связана с несбалансированностью выборки, когда примеров одного класса значительно больше, чем другого.

Действительно, добросовестных клиентов намного больше, чем недобросовестных. Модели, обученные на несбалансированных выборках, имеют «склонность» относить любое предъявленное наблюдение к более «частому» классу. И если это приводит к росту числа ошибок с большими издержками, то обучение модели нужно производить таким образом, чтобы минимизировать издержки классификации. Соответствующая технология получила название обучение, чувствительное к издержкам.

results matching ""

    No results matching ""