Концентратор данных (Data Hub) Скачать в PDF
Разделы: Источники данных
Концентратор данных — это подход к построению корпоративной информационной архитектуры, при котором все источники данных компании интегрируются на одной платформе. При этом обмен между источниками и потребителями производится через некоторую центральную точку. Цель такого подхода — обеспечить единое представление данных, отвечающее потребностям компании, и бесперебойный доступ к ним.
Концентратор обеспечивает единую точку доступа для всех потребителей информации, будь то приложение, аналитик или бизнес-пользователь. Он также позволяет манипулировать данными для решения различных задач, обеспечивая возможности централизованного управления их потоками.
Основными преимуществами концентраторов являются:
- Объединение разрозненных мест хранения в единый интерфейс для всех данных компании.
- Возможность создания высокоскоростных и высокопроизводительных конвейеров обработки данных.
- Хорошая видимость данных и доступность к ним.
Структурно архитектуру концентратора данных можно представить в виде нескольких уровней:
- Уровень исходной системы отвечает за извлечение данных из исходного источника и их интеграцию с концентратором данных.
- Уровень интеграции данных содержит все преобразования, необходимые для того, чтобы сделать информацию понятной для конечных пользователей. Часто это предполагает такие операции, как гармонизацию и обогащение данных.
- Уровень хранения обеспечивает потребности управления базами данных и моделирования бизнес-процессов.
- Уровень доступа к данным объединяет все точки доступа, подключенные к концентратору (OLTP-системы, платформы бизнес-аналитики, инструменты машинного обучения и т. д.).
- Уровень управления обеспечивает контроль над процессами интеграции, преобразования и потоками данных.
Концентраторы часто упоминаются в одном ряду с хранилищами и озерами данных как разные подходы к архитектуре информационной платформы компании. Но они не взаимозаменяемы, хотя часто используются совместно. В таблице приводится сравнение этих архитектур.
Хранилище данных | Озеро данных | Концентратор данных | |
---|---|---|---|
Область применения | Бизнес-аналитика и интеллектуальный анализ данных | Наука о данных и машинное обучение | Операционная деятельность, наука о данных, BI-аналитика, машинное обучение |
Структура данных | Только структурированные | Полуструктурированные и неструктурированные | Структурированные, полуструктурированные и неструктурированные |
Качество данных | Высокая | Среднее и низкое | Высокое |
Производительность | Средняя и низкая | Средняя и низкая | Высокая и средняя |
Вид интеграции | ETL | ELT | ELT и ETL |
Поддержка и обслуживание концентраторов данных является нетривиальной задачей, требующей постоянных усилий по обеспечению их работоспособности. Однако использование этой технологии открывает перед предприятием действительно широкие возможности в плане эффективного использования данных для совершенствования бизнеса.