Обнаружение знаний в базах данных (Knowledge Discovery in Databases)

Синонимы: Извлечение знаний из баз данных, KDD

Разделы: Бизнес-задачи

Процесс обнаружения полезных знаний в базах данных. Эти знания могут быть представлены в виде закономерностей, правил, прогнозов, связей между элементами данных и др. Главным инструментом поиска знаний в процессе KDD являются аналитические технологии Data Mining, реализующие задачи классификации, кластеризации, регрессии, прогнозирования, предсказания и т.д.

Однако в соответствии с концепцией KDD эффективный процесс поиска знаний не ограничивается их анализом. KDD включает последовательность операций, необходимых для поддержки аналитического процесса. К ним относятся:

  • Консолидация данных – процесс их извлечения из различных источников (OLTP-систем, СУБД, файлов отдельных пользователей, Интернета и т.д.) и загрузка в централизованное хранилище данных.
  • Подготовка анализируемых выборок данных (в том числе обучающих), загрузка их из хранилища или других источников в аналитическое приложение.
  • Очистка данных от факторов, мешающих их корректному анализу, таких как шумы и аномальные значения, дубликаты, противоречия, пропуски, фиктивные значения и т.д.
  • Трансформация – оптимизация данных для решения определенной задачи. Обычно на этом этапе выполняется исключение незначащих факторов, снижение размерности входных данных, нормализация, обогащение и другие преобразования, позволяющие лучше «приспособить» данные к решению аналитической задачи.
  • Анализ данных – применение методов и технологий Data Mining: построение и обучение моделей (нейронных сетей, деревьев решений, карт Кохонена и др.), решение задач классификации и регрессии, кластеризации, прогнозирования, поиска ассоциаций и т.д.
  • Интерпретация и визуализация результатов анализа, их применение в бизнес-приложениях.

Knowledge Discovery in Databases не задает набор методов обработки или пригодные для анализа алгоритмы, он определяет последовательность действий, которую необходимо выполнить для того, чтобы из исходных данных получить знания. Этот подход универсальный и не зависит от предметной области, что является его несомненным достоинством.

Основоположниками концепции KDD считаются Пятецкий-Шапиро и Усама Файад (Usama Fayyad).

results matching ""

    No results matching ""