МГУ имени М. В. Ломоносова
Экономический факультет
Кафедра экономической информатики

Интеграция данных

Интеграция данных на основе онтологии

Технология моделирования данных Data Vault, разработанная в 90-х гг. со-основателем Scalefree Дэном Линстедтом, сочетает лучшие характеристики третьей нормальной формы и схемы «Звезда» и представляет собой набор детализированных уникально связанных нормализованных таблиц, отслеживающих изменения и перемещения данных на протяжении всего жизненного цикла и обеспечивающих поддержку различных функциональных областей бизнеса.

Обработка данных из многочисленных источников сопряжена с рядом сложностей, среди которых грязные данные, отсутствие единых терминов для описания бизнес-процессов, длительная загрузка, неполная документация. Собранные ненадлежащим образом данные не содержат ценную для бизнеса информацию.

По мере роста числа исходных систем и расширения объёмов данных традиционные методы моделирования перестали отвечать новым требованиям к масштабируемости и детализации. Возникла необходимость в создании модели, которая сможет четко обозначить ключевые бизнес-объекты и обеспечить их интеграцию, устранив избыточность и дублирование данных.

Модель Data Vault спроектирована по принципу сетевой архитектуры hub-and-spoke, что гарантирует ее высокую масштабируемость и упрощает аудит качества данных.

В основе Data Vault три типа ключевых бизнес-сущностей - хабы, ссылки и сателлиты. Хаб содержит список бизнес-ключей. Ссылка отражает отношения между ними. Сателлиты хранят описательные атрибуты, связанные с хабом или ссылкой.

Со временем модель данных Data Vault эволюционировала до версии 2.0. Ключевой особенностью Data Vault 2.0 стало использование функции хеширования. Хеш-ключ - это уникальный идентификатор, сгенерированный путем применения функции хеширования к входным данным. С учетом разных форматов и источников ключей хеширование позволяет стандартизировать их для повышения производительности запросов.

Методология Data Vault объединяет различные концепции и принципы, в числе которых модель производительности и зрелости процессов CMMI, концепция всеобщего управления качеством TQM, правила управления производством «6 сигм», методика организации командной работы Scrum.

Data Vault 2.0 - это система бизнес-аналитики, которая включает в себя не только усовершенствованную модель, но и гибкую методологию, референтную архитектуру для корпоративных хранилищ данных и лучшие практики внедрения, доказавшие свою эффективность в различных сценариях развертывания.

В январе 2025 года компания Scalefree выпустила руководство «The Data Vault Handbook», содержащее практические рекомендации по созданию эффективных, масштабируемых хранилищ данных. В краткой форме авторы издания изложили ключевые принципы технологии Data Vault.



Российская Федерация, 119991, г.Москва, ГСП-1, Ленинские горы,
Московский государственный университет имени М.В. Ломоносова,
дом 1, строение 46 (3-й новый учебный корпус), Экономический факультет, к.546,548,550
Кафедра экономической информатики

Наш сайт на econ.msu.ru
+7 (495) 939-30-67 — секретарь
+7 (495) 939-57-25 — преподавательская
Электронная почта: it@econ.msu.ru