Интеграция данных (Data Integration) Скачать в PDF
Синонимы: Объединение данных
Разделы: Бизнес-задачи
Решения: Loginom Data Quality
В широком смысле интеграцией называют процесс объединения, вставки различных частей чего-либо. Например, в технике производится интеграция нескольких устройств в одну сложную техническую систему, в программной инженерии — интеграция программных модулей в одну систему, и т.д.
В аналитических технологиях под интеграцией в большинстве случаев подразумевают интеграцию данных из различных источников в один набор, в котором они хранятся в унифицированном формате и структуре. Впоследствии интегрированный набор данных полностью или частично может быть загружен в аналитическую платформу для применения к нему различных методов анализа.
В анализе интеграция является важным процессом, поскольку приходится иметь дело с очень большими объемами информации, расположенными в источниках, имеющих самые разнообразные представления, форматы и кодировки данных. Кроме этого, в данных могут быть нарушения структуры, полноты и целостности, что требует выполнения специальной предобработки данных.
В современных условиях задача интеграции обычно решается с помощью хранилищ данных и ETL-процессов.
Выделяют три уровня интеграции данных:
- Физический — производится преобразование данных из различных форматов и типов к единому физическому представлению. Это особенно важно для анализа данных, поскольку только их унифицированное представление гарантирует единообразную обработку различными алгоритмами и моделями. Единый формат дает возможность корректно интерпретировать и сравнивать результаты анализа данных из различных источников.
- Логический — организуется процесс работы с данными таким образом, как будто они находятся в едином источнике, в соответствии с некоторой схемой их описания. При этом используется унифицированный интерфейс работы с данными.
- Семантический — данные объединяются не на основе физической или логической модели, а на основе отношений между сущностями (объектами, процессами), которые они описывают.
Существуют следующие архитектуры систем интеграции:
- Консолидация — данные физически извлекаются из источников и объединяются в централизованном хранилище данных.
- Федерализация — данные не консолидируются физически, а хранятся в своих источниках и становятся доступными только при выполнении соответствующего запроса.
- Распространение — данные физически копируются из одного места в другое, пока не попадут в некоторую целевую систему.
Совместно с интеграцией данных необходимо решать задачу их очистки. Например, если в отдельных источниках данных записи являются уникальными и непротиворечивыми, то после интеграции они могут стать дубликатами и противоречиями.