Категоризация данных (Data categorization) Скачать в PDF
Разделы: Бизнес-задачи
В искусственном интеллекте и анализе данных категоризацией называют задачу отнесения наблюдений к одной из групп, называемых категориями. В целом задача категоризации похожа на задачу классификации, но имеются следующие отличия:
- категория определяет лишь некоторые общие свойства объектов;
- задача категоризации менее определенна, чем задача классификации;
- границы категорий, в отличие от классов, являются нечеткими, а сама категория определяется не формально, а сравнением с другими категориями.
Задача категоризации является более сложной, чем классификации, поскольку классы предварительно заданы, а категории приходится формировать. В случае обучения с учителем формирование категорий происходит методом проб и ошибок на основе примеров с известными ответами, предоставляемыми экспертом.
Задачей системы-категоризатора является формирование обобщающих признаков на основе обучающих примеров. При увеличении числа примеров несущественные, случайные значения признаков сглаживаются, а часто встречающиеся — усиливаются, при этом происходит постепенное уточнение границ категорий.