Реклассификация (Reclassification) Скачать в PDF

Синонимы: Переклассификация, Повторная классификация

Задача классификации решается с помощью обучения с учителем. Это означает, что в обучающем наборе данных для каждого наблюдения (примера) задана метка класса. При этом реализуется некоторое разбиение набора на классы, которое должен «научиться» воспроизводить классификатор в результате обучения.

Присвоение меток может осуществляться:

  • по факту — когда метки определены самим условием задачи (например, заемщик допустил или не допустил просрочку).
  • с помощью эксперта — когда метки назначает специалист предметной области на основе опыта решений аналогичных задач (например, какое количество покупок делает клиента лояльным или нелояльным).

В обоих случаях в задаче присутствует некоторый механизм назначения меток, называемый «учителем». В большинстве случаев он неидеален и может допускать ошибки. Однако слово «ошибка» здесь не совсем уместно, поскольку истинное (наилучшее) разбиение на классы, как правило, вообще неизвестно.

В результате разметка, сформированная учителем, оказывается смещенной относительно реальной. Классификатор, обученный на таких данных, может выдавать результаты, которые формально корректны с точки зрения алгоритма обучения, но далеки от действительности. В итоге это может привести к принятию неудачных управленческих решений.

Таким образом, при формировании обучающих данных для классификатора возникает два разбиения на классы: реальное (как правило, неизвестное) и созданное учителем, на основе которого проводится обучение. Поэтому в машинном обучении актуальна задача модификации разметки обучающего набора с целью уменьшения несоответствия между этими разбиениями. Эта задача получила название реклассификация.

Фактически реклассификация заключается в переназначении ранее заданных меток класса для улучшения работы классификатора. При этом «улучшение» понимается не как повышение точности, а как изменение воспроизводимой им структуры классов.

Необходимость в реклассификации может возникнуть в двух случаях:

  • когда результаты работы классификатора изначально не соответствуют ожиданиям, хотя все оценки его точности высокие. Это означает, что структура классов в разметке обучающих данных изначально смещена относительно фактической.
  • когда классификатор на первых этапах эксплуатации работает хорошо, но со временем его качество ухудшается. Это происходит из-за смещения фактической структуры классов относительно той, на которой он обучался.

На практике задача реклассификации сводится к поиску нового разбиения обучающего набора данных на классы, которое минимизирует некоторую целевую функцию. При этом могут появляться новые классы, исчезать существующие, а также происходить разделение или объединение ранее заданных классов.

В качестве целевой функции, например, можно использовать число наблюдений, изменивших метку класса при очередном разбиении. Поиск новых разбиений завершается, когда это число становится минимальным.

Новости, материалы по аналитике, кейсы применения, активное сообщество