März 8, 2024

In unserem letzten Blogbeitrag haben wir verschiedene Datenmodellierungskonzepte besprochen. Eines davon hat im letzten Jahrzehnt besonders viel Aufmerksamkeit erregt. Dan Linstedt entwickelte das Data Vault-Konzept in den 1990er Jahren als Antwort auf die Grenzen herkömmlicher Data-Warehousing-Techniken. Ursprünglich als Lösung für die Herausforderungen bei der Datenintegration und -flexibilität eingeführt, erlangte Data Vault Anerkennung für seine modulare und skalierbare Architektur. Der Ansatz hat sich im Laufe der Jahre unter Einbeziehung bewährter Verfahren und Erfahrungen weiterentwickelt und wird derzeit als Data Vault 2.0 angewendet. Im Jahr 2024 erfreut sich dieser Datenmodellierungsansatz weiterhin großer Beliebtheit als Methode zur Verwaltung und Strukturierung von Data Warehouses in komplexen und dynamischen Umgebungen. Aber worum geht es bei Data Vault eigentlich? Lassen Sie uns in diesem Blogbeitrag ein wenig ausführlicher darauf eingehen.

Schema-Struktur

Während die traditionellen Modellierungsideen von Kimball oder Inmon einen einfachen Einstieg zum Verständnis und zur Nutzung der Schemata für Berichte und Analysen bieten, ist das Data Vault-Modell für Ungeübte nicht sonderlich zugänglich. Auf der anderen Seite erschweren Kimball und Inmon den Umgang mit wesentlichen Änderungen. Dies wird besonders deutlich, wenn Sie mit größeren organisatorischen Änderungen umgehen müssen.
Data Vault hingegen spielt seine Stärken in dieser Art von Umgebung aus. Es bietet eine äußerst robuste Grundlage, die offen für Änderungen und die Erfassung historischer Daten ist. Das Schema selbst ist jedoch für ungeschulte Personen nicht leicht zugänglich. Unternehmen organisieren daher ihre Datentresor-Implementierung um das Kernschema des Datentresors und eine oder mehrere darüber liegende Veröffentlichungsschichten. Sie können das Kernschema als eine Isolierungsschicht für Unternehmensänderungen betrachten. Historische Daten sind geschützt und Sie können die Änderungen in der/den Veröffentlichungsschicht(en) anpassen.
Hier ein anschauliches Beispiel: Ein Unternehmen führte eine umfassende Umstrukturierung durch und wechselte von einer traditionellen Profitcenter-Ansicht zu einer Matrixorganisation. Das Kernschema blieb mit wenigen Änderungen stabil. Die meisten Anpassungen wurden auf der Veröffentlichungsebene vorgenommen. Die Berichterstellung für historische Daten war weiterhin möglich.

Bausteine: Hubs, Satelliten, Linkstruktur

Wie baut man ein Data Vault-Schema auf? Die Architektur baut auf drei Arten von Tabellen auf. Jede dieser Tabellen spielt eine wichtige Rolle: 

  1. Hubs: Hub-Tabellen dienen als zentrale Ablage für bestimmte Geschäftskonzepte wie Kunden, Produkte und Bestellungen. Diese Hub-Tabellen speichern Geschäftsschlüssel und stellen die grundlegende Schicht für die Organisation und Kategorisierung von Daten dar. Ein typisches Schema würde Hub-Tabellen für Kunden, Produkte, Bestellungen usw. enthalten.
  2. Verknüpfungen: Verknüpfungen stellen Beziehungen zwischen Hubs her und erfassen die Verbindungen und Interaktionen zwischen verschiedenen Entitäten. Durch die Definition dieser Beziehungen ermöglichen die Verknüpfungen ein umfassenderes Verständnis des Datenökosystems.
  3. Satelliten: Satelliten enthalten die beschreibenden Attribute, die mit Hubs und Links verknüpft sind, und liefern kontextbezogene Informationen und historische Daten. Satelliten spielen eine entscheidende Rolle bei der Wahrung der Integrität und der Abstammung der Daten.

Auch hier liegt die Hauptstärke dieses Ansatzes darin, dass er schrittweise Änderungen und Aktualisierungen ermöglicht, ohne das gesamte System zu beeinträchtigen. Unternehmen stellen fest, dass dies im Laufe der Zeit zu einer einfacheren Wartung und Weiterentwicklung des Data Warehouse beitragen kann. Die anfängliche Lernkurve könnte etwas steiler sein, aber das ist es wert, wenn Sie in einer spezifischen Umgebung arbeiten. 

Wann Sie Data Vault verwenden sollten 

Seien wir ehrlich – wir alle lieben einfache Lösungen. Die Realität ist jedoch, dass es keine einfachen Lösungen für komplexe Probleme gibt. Wenn Ihr Unternehmen gefestigt ist und nur wenige organisatorische Änderungen zu erwarten sind, könnte Data Vault ein zu schwerfälliger Ansatz für Sie sein. Die folgenden Situationen sind in der Regel gut für diesen Ansatz geeignet:

  1. Komplexe Datenumgebungen: Wenn die Datenquellen vielfältig und komplex sind, sollten Sie auf Data Vault zurückgreifen. Egal, ob es sich um mehrere Systeme, unterschiedliche Datenformate oder sich ändernde Geschäftsanforderungen handelt, die flexible Architektur von Data Vault kann sich an die verschiedenen Datenlandschaften anpassen.
  2. Agile Entwicklung: Unternehmen, die agile Methoden für die Softwareentwicklung einsetzen, können von Data Vault 2.0 stark profitieren. Seine modulare Struktur passt gut zu iterativen Entwicklungspraktiken und ermöglicht es den Teams, schrittweise Änderungen und Erweiterungen vorzunehmen, ohne umfangreiche Nacharbeiten zu verursachen. Außerdem können Sie Arbeitspakete entlang spezifischer Geschäftskonzepte aufteilen.
  3. Einhaltung von Vorschriften und Audits: In Branchen mit strengen gesetzlichen Vorschriften, wie z. B. im Finanzwesen, im Gesundheitswesen oder bei Behörden, ist die Wahrung der Datenintegrität und Prüfbarkeit von größter Bedeutung. Die in Data Vault eingebauten Mechanismen zur Nachverfolgung von Änderungen und zur Erhaltung der Datenreihenfolge machen es zur idealen Wahl für Compliance-gesteuerte Umgebungen.
  4. Skalierbarkeit: Da die Datenmengen exponentiell wachsen, ist die Skalierbarkeit ein entscheidender Faktor für Data-Warehousing-Lösungen. Die Fähigkeit von Data Vault zur horizontalen Skalierung durch Hinzufügen zusätzlicher Hubs, Links und Satelliten stellt sicher, dass die Lösung steigende Datenlasten ohne Leistungsverluste bewältigen kann.
  5. Datenqualität und -konsistenz: Durch die Trennung von Geschäftsschlüsseln und beschreibenden Attributen fördert Data Vault die Konsistenz und Qualität der Daten. Diese Trennung verringert das Risiko von Datenanomalien und gewährleistet, dass die Integrität der Daten während ihres gesamten Lebenszyklus erhalten bleibt.

Ist Data Vault ein Wundermittel? 

Obwohl Data Vault in vielen Umgebungen eine großartige Idee ist, ist es kein Allheilmittel für jede Organisation. Es gibt sicherlich eine Lernkurve, die in Ihrem Projektplan berücksichtigt werden muss. In manchen Fällen könnte Data Vault auch eine zu komplexe Lösung sein. Für beständige und kleinere Umgebungen könnte ein einfaches Kimball-Modell die bessere Lösung sein. Ohne spezialisierte Data-Warehouse-Automatisierungstools kann Data Vault bekanntermaßen schwierig zu implementieren und zu betreiben sein. Agile Data Engine zum Beispiel bietet umfangreiche Funktionen, um Data Vault nahtlos in Ihre Umgebung zu integrieren. 

Wie Sie anfangen können

Das erfahrene Team von Agile Data Engine hat sich mit INFORM DataLab zu einem einmaligen praktischen Workshop zusammengefunden, der Ihnen den Einstieg in Data Vault ermöglicht. Im Laufe eines Tages lernen Sie die Basiskonzepte und deren Anwendung in der Praxis kennen. Das Besondere an diesem Workshop ist das praxisorientierte Format. Alle Teilnehmer können das neu erworbene Wissen praktisch anwenden und in verschiedenen Übungen ein konkretes Datenmodell erstellen. Am Ende des Workshops werden Sie mit einem kleinen Beispielmodell die Veranstaltung verlassen.

Der Data Vault Workshop findet am 23. April in Düsseldorf statt. 


AUTOR

Dr.-Ing. Maike Scholtes

Maike hat mehr als fünf Jahre Erfahrung aus mehreren nationalen und internationalen Projekten in der Forschung und der Industrie. Außerdem war sie mehrfach im Ausland tätig. Sie hat einen Hintergrund in Maschinenbau, Mathematik und Informatik und begeistert sich dafür mit Hilfe von Daten einen Mehrwert zu generieren. Maike ist kompetent im Bereich des Designs und der Implementierung verschiedener Datenmanagmentsysteme. Sie hat Kenntnisse im Bereich Extrahieren, Transformieren, Laden (ETL) sowie Data Warehousing und Data Lake Technologien.