Противоречие (Contradiction) Скачать в PDF
В анализе данных — ситуация, когда в двух записях множества данных одному и тому же набору значений входных атрибутов соответствуют различные наборы значений выходных.
Так, для задачи классификации это означает, что два объекта с одинаковыми признаками относятся к различным классам, что противоречит логике анализа.
Например, если два клиента банка имеют одинаковые параметры (доход, наличие недвижимости, возраст и т.д.), но при этом для одного из них кредитный рейтинг будет «Высокий», а для другого — «Низкий», то соответствующие примеры будут противоречивыми.
Возраст | Стаж, лет | Доход, руб. | Число иждивенцев | Наличие автомобиля | Наличие недвижимости | Кредитный рейтинг |
---|---|---|---|---|---|---|
45 | 27 | 50 000 | 3 | Да | Да | Высокий |
45 | 27 | 50 000 | 3 | Да | Да | Низкий |
Наличие противоречий является одним из факторов, ухудшающих качество данных. Противоречия искажают закономерности в данных, поиск которых и является целью анализа, что приводит к снижению точности аналитических моделей. Поэтому исключение противоречий является одной из наиболее важных задач очистки данных.
При обработке противоречий возможны два подхода:
- Первый предполагает, что противоречие вызвано ошибкой (например, неправильно указана метка класса). В этом случае запись с ошибкой можно просто удалить.
- Второй подход допускает, что записи, хотя и являются противоречивыми, тем не менее отражают реальные события. В этом случае обычно производят объединение записей с агрегированием числовых значений выходных атрибутов.