Анализ отклонений (Deviation detection) Скачать в PDF
Синонимы: Определение выбросов
Разделы: Бизнес-задачи
Анализ отклонений — это поиск в данных редких, нетипичных объектов или наблюдений, которые не соответствуют логике поведения анализируемого бизнес-процесса или модели описывающих его данных.
Задачей анализа отклонений является их обнаружение и генерация формальных правил, объясняющих причины появления отклонений.
Отклонения в числовых данных можно интерпретировать как векторы в многомерном пространстве, расположенные на значительном удалении от основного «облака» данных по одному или нескольким признакам. В деревьях решений, например, отклонениями можно считать наблюдения, попавшие в узлы, содержащие всего несколько объектов. В ассоциативных правилах в качестве отклонений можно рассматривать ассоциации с очень низкой поддержкой (т.е. содержащие объекты крайней редко появляющиеся совместно).
Таким образом, поиск отклонений можно производить с помощью аналитических моделей, отказавшись от обобщающей способности, чтобы модель обнаруживала не только наиболее общие зависимости и закономерности, но и частные, редкие.
Следует четко понимать разницу между отклонением и аномальным значением. Отклонение — это нетипичный, редкий объект, наблюдение или шаблон. Аномальное значение (выброс) — это просто значение, сильно отличающееся от других значений одного и того же признака.
Т.е. аномальное значение всегда ищется путем сопоставления значений внутри столбца таблицы, а отклонения — путем сопоставления всех наблюдений набора данных.
Появление в наблюдении аномального значения (выброса) не делает автоматически данное наблюдение отклонением. Поэтому анализ отклонений (deviation analysis) и обнаружение аномальных значений (outlier detection) — это две разные задачи Data Mining. Первая ищет отклонения и пытается их объяснить. Вторая больше связана с очисткой данных.
Возможны два случая:
- Отклонение является «информационным мусором», т.е. появилось вследствие ошибки, технического сбоя и т.д. Например, цена товара в 10 раз отличается от его аналогов. Если это ошибка (добавили лишний ноль на ценнике), то объект не является отклонением, а является типичным объектом с неверно указанным признаком. В этом случае следует просто произвести очистку аномального значения и продолжить обработку наблюдения в обычном порядке.
- Отклонение является объектом, имеющим свойства, значительно отличающие его от других объектов. Например, отличие цены на товар от аналогов является не ошибкой, а следствием какого-то эксклюзивного исполнения товара, придающего ему принципиально новые потребительские свойства. В этом случае задача заключается в обнаружении правила, которое объясняет эти свойства (например, «если часы являются противоударными и влагонепроницаемыми, то стоят в 10 раз больше обычных»).
К задачам, в которых анализ отклонений является важной частью решения, можно отнести:
- обнаружение мошенничеств с кредитными картами и страховками (фрод);
- обнаружение вирусных атак на основе нетипичной сетевой активности;
- выявление эксклюзивных клиентов, которым можно предложить обслуживание на особых условиях, и др.
В Loginom обработчик редактирование выбросов предназначен для автоматической корректировки значений набора данных, существенно отклоняющихся от средних.