Сетка данных (Data mesh) Скачать в PDF

Разделы: Источники данных

Сетка данных — это подход к построению децентрализованной архитектуры данных компании путем использования доменно-ориентированной модели, где каждый домен связан с определенной предметной областью, и является полностью самообслуживаемым. Впервые концепция была предложена в 2019 году. В ее основе лежат четыре основополагающих принципа.

Доменно-ориентированное децентрализованное владение данными. Согласно первому принципу, корпоративные данные следует разделить на два вида: операционные и аналитические. Первые удовлетворяют потребности в поддержке рутинных бизнес-операций и оперативных решений. Вторые используются для поддержки бизнес-аналитики и принятия стратегических решений.

Аналитическая информация как правило хранятся в централизованных структурах, таких как хранилище или озеро данных. При этом часто оказывается, что централизованная аналитическая обработка является узким местом, когда все потребности руководства и менеджмента компании в результатах анализа решить в разумные сроки не удается.

Одной из причин является то, что группа аналитиков, работающая с централизованными данными вынуждена разбираться и понимать весь спектр задач анализа, на что требуется время. Это серьезная проблема, поскольку принятие своевременных решений на основе данных имеет важное значение для сохранения конкурентоспособности компании.

Поэтому концепция сетки данных предполагает децентрализацию аналитических данных на основе предметно-ориентированного подхода на отдельные предметные области — домены.

Самообслуживание доменов. Для каждого домена формируется отдельная группа специалистов, которая несет всю ответственность за его данные и их аналитическую обработку.

Федеративное управление аналитической обработкой. Данные при анализе не консолидируются физически, а остаются в своих доменах и становятся доступными только в процессе выполнения соответствующих запросов.

Взгляд на данные, как на продукт. Продукты данных, созданные каждой командой предметной области, должны быть доступными, адресуемыми, заслуживающими доверия, обладать определенной семантикой и синтаксисом, быть совместимыми, безопасными и соответствовать стандартам качества. Другими словами, к данным следует относиться как к готовому к использованию и надежному продукту.

Сетка данных является сравнительно новой концепцией и сейчас рано говорить о ее преимуществах и недостатках. Тем не менее, она внедрена рядом компаний международного уровня, среди которых Netflix, PayPal и др. Кроме этого концепция сетки данных отражает формирующуюся тенденцию децентрализации в дизайне корпоративных информационных архитектур.