Озеро данных (Data Lake) Скачать в PDF
Разделы: Источники данных
Data Lake (Озеро данных) — метод хранения структурированной, полуструктурированной и неструктурированной информации, а также организации больших объемов данных, поступающих из различных источников, таких как логи, события, медиафайлы и т.д.
Озеро данных ориентировано на консолидацию «сырых» данных, которые в дальнейшем могут быть преобразованы и использованы для аналитики, машинного обучения и других целей. Оно обычно используется в формате «храни все», то есть информация, поступающая в систему, складируется без изменений. Данный метод обеспечивает только базовую согласованность данных.
Озеро, как и хранилище данных, решает задачу консолидации, но отличается от него в фундаментальных подходах к работе с информацией.
Сравнительная характеристика методов хранения информации представлена в таблице:
Характеристики | Озеро данных | Хранилище данных |
---|---|---|
Хранение данных | Содержит все данные организации в независимости от их структуры и источника, а также может хранить информацию неограниченный период времени | Содержит только обработанные структурированные данные, подготовленные для конкретных бизнес задач |
Пользователи | Аналитики и инженеры данных используют для изучения информации в сыром виде, для выявления тенденций и формирования новых уникальных бизнес-идей | Менеджеры и конечные бизнес-пользователи используют для получения ответов на поставленные вопросы |
Анализ | Предсказательная аналитика, машинное обучение, BI и аналитика big date | Визуализация данных, BI, аналитика данных |
Схема хранения | Определяется после сохранения информации | Задается до сохранения информации |
Обработка | Использует процесс ELT | Использует процесс ETL |
Озеро данных имеет ряд преимуществ, выделяющих его на фоне других способов хранения информации:
- дешевизна реализации;
- быстрая адаптивность к изменениям;
- централизация различных источников данных;
- гибкий доступ к данным из любого места.
Но, несмотря на ряд весомых преимуществ, существуют определенные риски. В частности, нельзя быть уверенным в достоверности результатов анализа, так как часто нет информации о том, откуда были взяты исходные сведения. К недостаткам также можно отнести появление сомнительных данных, которые трудно проверить. Никто не ведет контроль при их заливке, что позволяет удешевить сбор и хранение данных, но ввиду этого существует риск превратить озеро в «болото».
Организация озера данных — сложный процесс, требующий компетентного подхода, но универсальность и высокая польза для бизнеса делает Data lake одним из популярных методов хранения информации.