Unkategorisiert

Das Data Vault-Konzept

In unserem letzten Blogbeitrag haben wir verschiedene Datenmodellierungskonzepte besprochen. Eines davon hat im letzten Jahrzehnt besonders viel Aufmerksamkeit erregt. Dan Linstedt entwickelte das Data Vault-Konzept in den 1990er Jahren als Antwort auf die Grenzen herkömmlicher Data-Warehousing-Techniken. Ursprünglich als Lösung für die Herausforderungen bei der Datenintegration und -flexibilität eingeführt, erlangte Data Vault Anerkennung für seine modulare und skalierbare Architektur. Der Ansatz hat sich im Laufe der Jahre unter Einbeziehung bewährter Verfahren und Erfahrungen weiterentwickelt und wird derzeit als Data Vault 2.0 angewendet. Im Jahr 2024 erfreut sich dieser Datenmodellierungsansatz weiterhin großer Beliebtheit als Methode zur Verwaltung und Strukturierung von Data Warehouses in komplexen und dynamischen Umgebungen. Aber worum geht es bei Data Vault eigentlich? Lassen Sie uns in diesem Blogbeitrag ein wenig ausführlicher darauf eingehen.

Schema-Struktur

Während die traditionellen Modellierungsideen von Kimball oder Inmon einen einfachen Einstieg zum Verständnis und zur Nutzung der Schemata für Berichte und Analysen bieten, ist das Data Vault-Modell für Ungeübte nicht sonderlich zugänglich. Auf der anderen Seite erschweren Kimball und Inmon den Umgang mit wesentlichen Änderungen. Dies wird besonders deutlich, wenn Sie mit größeren organisatorischen Änderungen umgehen müssen.
Data Vault hingegen spielt seine Stärken in dieser Art von Umgebung aus. Es bietet eine äußerst robuste Grundlage, die offen für Änderungen und die Erfassung historischer Daten ist. Das Schema selbst ist jedoch für ungeschulte Personen nicht leicht zugänglich. Unternehmen organisieren daher ihre Datentresor-Implementierung um das Kernschema des Datentresors und eine oder mehrere darüber liegende Veröffentlichungsschichten. Sie können das Kernschema als eine Isolierungsschicht für Unternehmensänderungen betrachten. Historische Daten sind geschützt und Sie können die Änderungen in der/den Veröffentlichungsschicht(en) anpassen.
Hier ein anschauliches Beispiel: Ein Unternehmen führte eine umfassende Umstrukturierung durch und wechselte von einer traditionellen Profitcenter-Ansicht zu einer Matrixorganisation. Das Kernschema blieb mit wenigen Änderungen stabil. Die meisten Anpassungen wurden auf der Veröffentlichungsebene vorgenommen. Die Berichterstellung für historische Daten war weiterhin möglich.

Bausteine: Hubs, Satelliten, Linkstruktur

Wie baut man ein Data Vault-Schema auf? Die Architektur baut auf drei Arten von Tabellen auf. Jede dieser Tabellen spielt eine wichtige Rolle: 

  1. Hubs: Hub-Tabellen dienen als zentrale Ablage für bestimmte Geschäftskonzepte wie Kunden, Produkte und Bestellungen. Diese Hub-Tabellen speichern Geschäftsschlüssel und stellen die grundlegende Schicht für die Organisation und Kategorisierung von Daten dar. Ein typisches Schema würde Hub-Tabellen für Kunden, Produkte, Bestellungen usw. enthalten.
  2. Verknüpfungen: Verknüpfungen stellen Beziehungen zwischen Hubs her und erfassen die Verbindungen und Interaktionen zwischen verschiedenen Entitäten. Durch die Definition dieser Beziehungen ermöglichen die Verknüpfungen ein umfassenderes Verständnis des Datenökosystems.
  3. Satelliten: Satelliten enthalten die beschreibenden Attribute, die mit Hubs und Links verknüpft sind, und liefern kontextbezogene Informationen und historische Daten. Satelliten spielen eine entscheidende Rolle bei der Wahrung der Integrität und der Abstammung der Daten.

Auch hier liegt die Hauptstärke dieses Ansatzes darin, dass er schrittweise Änderungen und Aktualisierungen ermöglicht, ohne das gesamte System zu beeinträchtigen. Unternehmen stellen fest, dass dies im Laufe der Zeit zu einer einfacheren Wartung und Weiterentwicklung des Data Warehouse beitragen kann. Die anfängliche Lernkurve könnte etwas steiler sein, aber das ist es wert, wenn Sie in einer spezifischen Umgebung arbeiten. 

Wann Sie Data Vault verwenden sollten 

Seien wir ehrlich – wir alle lieben einfache Lösungen. Die Realität ist jedoch, dass es keine einfachen Lösungen für komplexe Probleme gibt. Wenn Ihr Unternehmen gefestigt ist und nur wenige organisatorische Änderungen zu erwarten sind, könnte Data Vault ein zu schwerfälliger Ansatz für Sie sein. Die folgenden Situationen sind in der Regel gut für diesen Ansatz geeignet:

  1. Komplexe Datenumgebungen: Wenn die Datenquellen vielfältig und komplex sind, sollten Sie auf Data Vault zurückgreifen. Egal, ob es sich um mehrere Systeme, unterschiedliche Datenformate oder sich ändernde Geschäftsanforderungen handelt, die flexible Architektur von Data Vault kann sich an die verschiedenen Datenlandschaften anpassen.
  2. Agile Entwicklung: Unternehmen, die agile Methoden für die Softwareentwicklung einsetzen, können von Data Vault 2.0 stark profitieren. Seine modulare Struktur passt gut zu iterativen Entwicklungspraktiken und ermöglicht es den Teams, schrittweise Änderungen und Erweiterungen vorzunehmen, ohne umfangreiche Nacharbeiten zu verursachen. Außerdem können Sie Arbeitspakete entlang spezifischer Geschäftskonzepte aufteilen.
  3. Einhaltung von Vorschriften und Audits: In Branchen mit strengen gesetzlichen Vorschriften, wie z. B. im Finanzwesen, im Gesundheitswesen oder bei Behörden, ist die Wahrung der Datenintegrität und Prüfbarkeit von größter Bedeutung. Die in Data Vault eingebauten Mechanismen zur Nachverfolgung von Änderungen und zur Erhaltung der Datenreihenfolge machen es zur idealen Wahl für Compliance-gesteuerte Umgebungen.
  4. Skalierbarkeit: Da die Datenmengen exponentiell wachsen, ist die Skalierbarkeit ein entscheidender Faktor für Data-Warehousing-Lösungen. Die Fähigkeit von Data Vault zur horizontalen Skalierung durch Hinzufügen zusätzlicher Hubs, Links und Satelliten stellt sicher, dass die Lösung steigende Datenlasten ohne Leistungsverluste bewältigen kann.
  5. Datenqualität und -konsistenz: Durch die Trennung von Geschäftsschlüsseln und beschreibenden Attributen fördert Data Vault die Konsistenz und Qualität der Daten. Diese Trennung verringert das Risiko von Datenanomalien und gewährleistet, dass die Integrität der Daten während ihres gesamten Lebenszyklus erhalten bleibt.

Ist Data Vault ein Wundermittel? 

Obwohl Data Vault in vielen Umgebungen eine großartige Idee ist, ist es kein Allheilmittel für jede Organisation. Es gibt sicherlich eine Lernkurve, die in Ihrem Projektplan berücksichtigt werden muss. In manchen Fällen könnte Data Vault auch eine zu komplexe Lösung sein. Für beständige und kleinere Umgebungen könnte ein einfaches Kimball-Modell die bessere Lösung sein. Ohne spezialisierte Data-Warehouse-Automatisierungstools kann Data Vault bekanntermaßen schwierig zu implementieren und zu betreiben sein. Agile Data Engine zum Beispiel bietet umfangreiche Funktionen, um Data Vault nahtlos in Ihre Umgebung zu integrieren. 

Wie Sie anfangen können

Das erfahrene Team von Agile Data Engine hat sich mit INFORM DataLab zu einem einmaligen praktischen Workshop zusammengefunden, der Ihnen den Einstieg in Data Vault ermöglicht. Im Laufe eines Tages lernen Sie die Basiskonzepte und deren Anwendung in der Praxis kennen. Das Besondere an diesem Workshop ist das praxisorientierte Format. Alle Teilnehmer können das neu erworbene Wissen praktisch anwenden und in verschiedenen Übungen ein konkretes Datenmodell erstellen. Am Ende des Workshops werden Sie mit einem kleinen Beispielmodell die Veranstaltung verlassen.

Der Data Vault Workshop findet am 23. April in Düsseldorf statt. 

Read More
Unkategorisiert

Ist Datenmodellierung in einem modernen Cloud-Data-Warehouse relevant?

Bei einer kürzlichen Keynote beim Agile Data Engine Summit in Helsinki sprach der Meinungsführer und Buchautor Joe Reise über die Rolle der Datenmodellierung im heutigen Geschäftsumfeld. Mit dem Aufkommen des modernen Data Lake glauben einige, dass eine ordnungsgemäße Datenmodellierung nicht mehr nötig ist. Man kann riesige Datenmengen mit wenig Überlegung speichern. Datenmodellierung erfordert Zeit und Fähigkeiten. Und nun? Joe argumentierte, dass Datenmodellierung immer noch, wenn nicht sogar mehr, eine wichtige Praxis ist, die man berücksichtigen sollte, wenn man sein Data Warehouse von On-Prem in die Cloud verlagert.

Big Data sollte nicht Big Search bedeuten

Stellen Sie sich vor, Sie hätten die Möglichkeit, von einem kleinen Haus in eine Villa umzuziehen, die zehnmal größer ist als Ihr aktueller Wohnort. Platz ist plötzlich kein Problem mehr. Würden Sie Ihre Sachen ziellos in die verschiedenen geräumigen Zimmer werfen? Wahrscheinlich nicht. Sie würden bald den Überblick verlieren, viel Zeit mit der Suche nach Dingen verbringen, redundante Käufe tätigen und wahrscheinlich sehr unzufrieden mit Ihrer Situation sein. Einige Organisationen teilen diese Gefühle, wenn sie ihre Daten mit wenig Sorgfalt in einen Data Lake kippen.

Datenmodellierung ist relevanter als je zuvor

Wir sind fest davon überzeugt, dass eine ordnungsgemäße Datenmodellierung notwendig ist und dass dies von Anfang an eine hohe Priorität haben sollte. Datenmodellierung dient als grundlegender Schritt in der Entwicklung eines Data Warehouse und bietet einen strukturierten und organisierten Ansatz zur Darstellung und Verwaltung von Daten. Das Datenmodell hat großen Einfluss auf eine Reihe von Aspekten, einschließlich Datenqualität, Verständnis, Abfrageleistung, Datenintegrität, Entwicklungszeit, Wissenstransfer und Skalierbarkeit. Dinge dem Zufall zu überlassen, führt nur zu höheren Kosten und Frustration weiter unten in der Linie. Hier sind zehn Schlüsselgründe, warum Sie Zeit und Ressourcen in ein ordnungsgemäßes Datenmodell investieren sollten:

Datenqualität & Konsistenz

Datenmodellierung definiert die Struktur und Beziehungen innerhalb einer Datenbank und gewährleistet Konsistenz und Qualität der Daten. Dies wird in Cloud-Umgebungen entscheidend, wo vielfältige Datenquellen integriert werden und eine einheitliche Sicht für genaue Analysen und Berichte essentiell ist. Es hilft auch, Datenredundanz zu vermeiden.

Verständnis von Daten

Datenmodelle bieten eine visuelle Darstellung der Datenstruktur, was es sowohl technischen als auch nicht-technischen Stakeholdern erleichtert, die Daten zu verstehen. Dieses Verständnis ist lebenswichtig für effektive Zusammenarbeit, Entscheidungsfindung und Kommunikation quer durch Teams. Es hilft auch neuen Teammitgliedern, schneller an Bord zu kommen, da sie die zuvor geleistete Arbeit leicht verstehen können.

Datenintegration

Cloud-Umgebungen beinhalten oft die Integration von Daten aus verschiedenen Quellen. Datenmodelle dienen als Blaupause für die Integration unterschiedlicher Datensätze und helfen Organisationen, eine einheitliche und kohärente Sicht auf ihre Informationen zu erstellen, unabhängig von deren Quelle. Dieser Prozess ist entscheidend, um sicherzustellen, dass Daten aus verschiedenen Herkünften—sei es interne Datenbanken, externe Cloud-Dienste oder SaaS-Plattformen—harmonisiert und effektiv genutzt werden können. Durch den Einsatz strukturierter Datenmodelle können Unternehmen den Integrationsprozess vereinfachen, die Datenqualität verbessern, Inkonsistenzen reduzieren und eine effiziente Datennutzung quer durch Abteilungen fördern.

Standardisierung

Die Standardisierung von Datenmodellen gewährleistet einen konsistenten Ansatz zur Datenrepräsentation und -interpretation. Dies ist in Cloud-Umgebungen entscheidend, wo mehrere Tools und Dienste verwendet werden können, um sicherzustellen, dass jeder die Daten auf die gleiche Weise interpretiert und verwendet. Durch die Implementierung einheitlicher Datenmodelle über Plattformen hinweg können Organisationen die Fallstricke von Datenabweichungen und Fehlinterpretationen vermeiden, die oft aus unterschiedlichen Datenhandhabungspraktiken entstehen. Diese Einheitlichkeit ist entscheidend für die Aufrechterhaltung der Datenintegrität, die Erleichterung genauer Datenanalysen und die Unterstützung kohärenter Datenverwaltungspolitiken. Darüber hinaus vereinfacht die Standardisierung die Zusammenarbeit zwischen verschiedenen Teams und Abteilungen und erhöht die Effizienz datengesteuerter Projekte. Sie stellt sicher, dass Datenwissenschaftler, Analysten und Geschäftsnutzer alle auf der gleichen Seite sind und ermöglicht einen nahtlosen Austausch von Informationen und Einsichten. In Umgebungen, in denen die Entscheidungsfindung stark auf Daten basiert, spielt die Standardisierung von Datenmodellen eine zentrale Rolle bei der Rationalisierung von Prozessen, der Reduzierung von Fehlern und der Beschleunigung von Ergebnissen.

Abfrageleistung

Gut entworfene Datenmodelle können die Abfrageleistung erheblich verbessern. In Cloud-Data-Warehouses, wo große Datenmengen gespeichert und abgefragt werden, kann ein optimiertes Datenmodell zu effizienterer und schnellerer Abfrageausführung führen. Dies treibt nicht nur die Kundenzufriedenheit voran, sondern führt auch zu einer deutlich besseren Annahme von Analysen im Allgemeinen. Niemand wartet gerne auf etwas.

Cloud-Data-Warehouse-Kosten

Entlang der Linie besserer Abfrageleistung stehen Kostenaspekte. Schlecht entworfene Abfragen kosten Geld in der Cloud. Sie möchten sicherstellen, dass Ihr Team auf die kosteneffizienteste Weise auf Daten zugreifen kann und dass Sie keine wertvollen finanziellen Ressourcen für schlecht ausgeführte Abfragen verschwenden. Ebenso müssen Datenladungen und Workflows ordnungsgemäß entworfen und verwaltet werden, um diese gefürchteten Rechnungen von Ihrem Cloud-Data-Warehouse-Anbieter zu vermeiden.

Metadatenmanagement: Verbesserung von Datenkenntnissen und -verwaltung durch effizientes Metadatenmanagement

Metadaten, Informationen über die Daten, sind ein entscheidender Aspekt des Datenmanagements. Datenmodelle bieten eine strukturierte Möglichkeit, Metadaten zu verwalten und zu dokumentieren, was es einfacher macht, den Kontext von Datenelementen zu verfolgen und zu verstehen. Metadaten, die detaillierten Informationen, die die Eigenschaften, Herkunft und Nutzung von Daten beschreiben, sind grundlegend für ein effektives Datenmanagement. Im digitalen Zeitalter, wo die Datenmengen exponentiell wachsen, hat die Rolle von Metadaten mehr Bedeutung denn je erlangt. Sie dienen als Dreh- und Angelpunkt, um die Wahrhaftigkeit der Daten zu gewährleisten, ihre Entdeckung zu erleichtern und ihre Organisation zu straffen. Strukturierte Datenmodelle sind in diesem Kontext unschätzbare Werkzeuge. Sie bieten ein klares Framework für das Management und die Dokumentation von Metadaten, was wiederum ermöglicht, die Abstammung von Datenelementen zu verfolgen, ihre Beziehungen zu verstehen und ihre Konsistenz über verschiedene Systeme hinweg sicherzustellen. Dieser strukturierte Ansatz zur Verwaltung von Metadaten verbessert die gesamte Datenverwaltung, indem er die Datenqualität verbessert, die Einhaltung von Datenregulierungen ermöglicht und Daten sicherheitsinitiativen unterstützt. Darüber hinaus befähigt effizientes Metadatenmanagement Organisationen, ihre Daten effektiver zu nutzen. Es unterstützt die Schaffung von reichen, kontextuellen Datenlandschaften, in denen Datenwissenschaftler und Analysten mit Leichtigkeit navigieren können, um Einsichten zu entdecken, die Innovation und strategische Entscheidungen antreiben. Indem es eine umfassende Sicht auf Datenvermögen bietet, erleichtert das Metadatenmanagement eine bessere Ressourcenzuweisung, Risikomanagement und Kundenverständnis.

Datenverwaltung

Datenmodellierung spielt eine entscheidende Rolle bei der Etablierung und Durchsetzung von Datenverwaltungsrichtlinien. In einem Geschäftsumfeld, in dem die Verletzung von Datenschutzregeln wie der GDPR verheerende Folgen haben kann, spielt eine ordnungsgemäße Datenmodellierung eine entscheidende Rolle bei der Gestaltung angemessener Verwaltungsstrukturen. Dies wird noch kritischer in der Cloud, wo Daten oft verteilt sind, was die Einhaltung noch komplexer macht.

Migration & Portabilität

In einer Umgebung beschleunigter Technologieinnovation wird Portabilität kritisch. Bei der Migration von Daten in die Cloud oder zwischen Cloud-Plattformen erleichtert ein gut definiertes Datenmodell den Prozess. Es bietet einen klaren Fahrplan für die Migrationsstrategie und gewährleistet die Daten Portabilität über verschiedene Cloud-Dienste hinweg.

Zusammenarbeit & Kommunikation

Zu guter Letzt ermöglicht ein gut entworfenes Datenmodell Teams zusammenzuarbeiten. Wie zuvor dargelegt, trägt die Leichtigkeit des Verständnisses erheblich zur effektiven Teamarbeit bei. Die Aufteilung und Zuweisung von Arbeitspaketen werden einfacher, wenn Dinge gut strukturiert sind.

Optimierung der Teamzusammenarbeit und Kommunikation mit effektiver Datenmodellierung

Ein gut strukturiertes Datenmodell ist entscheidend für die Verbesserung der Teamzusammenarbeit und Kommunikation in jeder datengesteuerten Organisation. Das klare, verständliche Design von Datenmodellen verbessert signifikant die Effizienz der Teamarbeit und macht es einfacher für Teams, an komplexen Projekten zusammenzuarbeiten. Diese Klarheit in der Datenrepräsentation stellt sicher, dass alle Teammitglieder, unabhängig von ihrem technischen Fachwissen, die Struktur und Beziehungen innerhalb der Daten erfassen können, was eine inklusivere und produktivere Arbeitsumgebung fördert. Effektive Datenmodellierung vereinfacht den Prozess der Aufteilung und Zuweisung von Arbeitspaketen und ermöglicht einen organisierteren und straffer geführten Arbeitsablauf. Durch die Etablierung einer soliden Basis, auf der Daten gut strukturiert und leicht interpretierbar sind, können Teams Missverständnisse vermeiden und die Zeit, die für die Klärung datenbezogener Anfragen aufgewendet wird, reduzieren. Dies führt zu einem agileren Projektentwicklungsprozess, bei dem Ressourcen optimal genutzt werden und Projektmeilensteine effizienter erreicht werden. Die Einbeziehung strategischer Schlüsselwörter wie „Teamzusammenarbeit“, „effektive Kommunikation“, „datengesteuerte Organisation“ und „straffer Arbeitsablauf“ verbessert nicht nur das SEO-Potenzial dieses Abschnitts, sondern kommuniziert auch deutlich die Vorteile eines gut entworfenen Datenmodells bei der Förderung von Teamzusammenarbeit und Kommunikation. Indem die Bedeutung von Verständlichkeit und gut strukturierten Daten für die Förderung effektiver Teamarbeit hervorgehoben wird, können Organisationen eine kollaborativere und kommunikativere Kultur fördern. Dies steigert nicht nur die Produktivität einzelner Projekte, sondern trägt auch zum Gesamterfolg und zur Agilität der Organisation bei, die Komplexitäten der heutigen datenzentrierten Welt zu navigieren.

Datenmodellierung ist 2024 relevant: Die Zukunft der Datenmodellierung in 2024 und darüber hinaus

Wir alle lieben den technologischen Fortschritt, doch mehr Leistung und Platz bedeutet nicht, dass wir uns gedankenlos darauf stürzen sollten. Ein ordentliches Data Modeling ist relevanter denn je. Genauso, wie beim Umzug in eine große Villa, wird Ihre Erfahrung deutlich besser sein, wenn Dinge gut strukturiert und an den richtigen Stellen gespeichert sind. Sowohl INFORM Datalab als auch Agile Data Engine verfügen über umfangreiche gemeinsame Erfahrungen darin, Ihnen bei der Auswahl, dem Design und der Implementierung eines soliden Datenmodells zu helfen. In unserem nächsten Blogbeitrag werden wir uns gängige Ansätze des Data Modeling ansehen.

Lernen Sie in unserem Data Vault Experience Workshop die Prinzipien und praktischen Anwendungen von Data Vault kennen. Sie werden die Bedeutung der Datenmodellierung, ihre Auswirkungen auf eine agile BI-Schicht und die Bausteine des Data Vault-Ansatzes kennenlernen. Anhand praktischer Übungen können Sie sich mit anderen Datenexperten austauschen und Ihr Wissen anwenden. Jetzt Anmelden!

Read More
Unkategorisiert

Datenmodellierung ist auch 2024 relevant – Aber welche Optionen habe ich? 

Im letzten Blogbeitrag haben wir erläutert, warum Datenmodellierung heute noch immer von großer Bedeutung ist. Allein die Möglichkeit, große Datenmengen zu speichern, bedeutet nicht, dass man diese einfach „ablegen“ sollte. Im Gegenteil, bei großen Datenmengen ist Datenmodellierung unerlässlich. Sie ermöglicht es Ihnen, das Gesuchte zu finden, verbessert die Abfrageleistung und damit auch die Cloud-Kosten. Das sind nur einige der Vorteile. Wir betrachten auch, wie Datenmodellierung tatsächlich helfen kann, Ihre Daten zu verstehen. Da Datenmodellierung offensichtlich auch einige Herausforderungen mit sich bringt, wie zum Beispiel die Übersetzung von Anforderungen aller Stakeholder und die Auswahl des richtigen Modells für die gegebene Situation. 

Die drei Musketiere der Datenmodellierung 

Der erste Schritt der Datenmodellierung dreht sich viel um das Management von Stakeholdern. Diese erste Phase wird als konzeptionelles Modell bezeichnet. In dieser Phase ist es wesentlich, das Geschäft einzubeziehen, um allgemeine Konzepte, Entitäten und deren Beziehungen zu bestimmen. Dieser Schritt ist vollständig unabhängig von jeglicher Technologie, die Sie möglicherweise wählen möchten. Er bietet einen Überblick auf hoher Ebene über das zu erstellende System und kann als Blaupause dienen. 

Logische Modellierung: Daten über das Grundlegende hinaus detaillieren 

Die nächste Phase ist der Aufbau des logischen Modells. Ein logisches Modell ist immer noch unabhängig von jeglicher Technologie, beschreibt aber Daten detailliert. Das bedeutet, dass es nicht nur die Entitäten und ihre Beziehungen beschreibt, sondern auch die Attribute der Entitäten im Detail. Attribute können durch ihren Datentyp, Länge und Präzision beschrieben werden. Namensgebung verwendet weiterhin Geschäftsnamen für Objekte. 

Physische Modellierung: Die Phase der technologischen Implementierung 

Als letzter Schritt muss das logische Modell in ein physisches Modell umgewandelt werden. Das bedeutet, dass der Plan in eine tatsächliche physische Implementierung umgesetzt werden muss. Daher geht es in diesem Schritt sehr um die Technologie. Das Modell verwendet jetzt die relationalen Datenobjekte (Tabellen, Spalten usw.). Zusätzlich ist dies auch der Schritt, in dem Schlüssel und Beschränkungen in das Design eingeführt werden. 

Klarheit erhöhen mit Entity-Relationship-Diagrammen 

Sie können Entity-Relationship-Diagramme verwenden, um Ihre Modelle zu zeichnen (siehe auch nächsten Abschnitt) mit zunehmenden Details, während Sie durch die Phasen gehen. Dies bietet eine leicht lesbare und standardisierte Darstellung. 

Datenmodellierung: Die Reise von Hierarchien zu Graphen 

Datenmodelle haben sich im Laufe der Zeit entwickelt, da sich Datenbanken verändert haben. Wir sind von hierarchischen Modellen über Netzwerkdatenmodelle zu relationalen Datenmodellen gegangen. Das Konzept der relationalen Datenmodelle wurde erstmals 1970 von Edgar F. Codd eingeführt. Es organisiert Daten in Tabellen, die Reihen und Spalten haben. Reihen repräsentieren einzigartige Datensätze, während Spalten Attribute beschreiben. Dies ist ein bekanntes Konzept, das wir heute noch verwenden. Früher haben wir Entity-Relationship-Diagramme erwähnt. Sie sind eine Form des relationalen Modells und stellen Entitäten, deren Attribute und die Beziehungen zwischen diesen Entitäten dar. Der letzte Modelltyp, der für uns in diesem Artikel wichtig ist und im nächsten Abschnitt genauer untersucht wird, ist das dimensionale Modellieren. Es wird hauptsächlich in Datenlagern und Datenmarts verwendet (siehe ersten Blogbeitrag). Es nutzt ein sogenanntes Sternschema, in dessen Zentrum eine Faktentabelle steht, die Transaktionen oder andere Ereignisse enthält. Das könnte z. B. Kaufereignisse von Produkten sein. Die Faktentabelle ist dann mit dimensionalen Tabellen verbunden, die z. B. Details zu den gekauften Produkten oder zum kaufenden Kunden enthalten. Der Vollständigkeit halber sollte hier erwähnt werden, dass es auch das Schneeflockenschema gibt, das derselben Logik folgt, aber auch mehrere Ebenen von dimensionalen Tabellen haben könnte. 

Um vollständig zu sein, gibt es zwei weitere Modellierungstechniken, die objektorientierte Datenmodellierung, die sich auf die objektorientierte Programmierung bezieht, die in den 1990er Jahren aufkam, und die Graphdatenmodellierung. Beide werden in diesem Artikel nicht behandelt. 

Eine Geschichte von drei Methoden: Die großen Namen: Inmon vs. Kimball vs. Data Vault – Welche Designoptionen habe ich? 

Die großen Namen, auf die Sie stoßen, wenn Sie sich mit Datenmodellierung für Datenlager beschäftigen, sind definitiv Inmon und Kimball. Man könnte sie die Klassiker im Design von Datenlagern nennen. Das neueste Konzept der drei großen Namen ist das von Data Vault, genauer gesagt Data Vault 2.0. Und ja, im Gegensatz zu den anderen beiden ist es nicht nach seinem Erfinder benannt, der in diesem Fall Dan Linstedt wäre. Bill Inmon wird oft als „der Vater des Datenlagerwesens“ bezeichnet. Inmons Ansatz wird als Top-Down-Ansatz verstanden. Er konzentriert sich darauf, das Datenlager zuerst in der dritten Normalform für das gesamte Unternehmen zu bauen (Unternehmensdatenlager). Dadurch wird eine einzige Quelle der Wahrheit geschaffen. Für die verschiedenen Geschäftsbereiche werden Datenmarts erstellt, die alle das Datenlager als Quelle haben. Offensichtlich erfordert dies eine große Anfangsinvestition, da die gesamten Geschäftsprozesse und Anforderungen für ein komplettes Unternehmen klar und verstanden sein müssen, bevor mit der Modellierung begonnen wird. 

Kimball vs. Inmon: Die Vor- und Nachteile von Bottom-Up- und Top-Down-Datenlager-Designstrategien navigieren 

Im Gegensatz dazu folgt der Kimball-Ansatz einem Bottom-Up-Design. In diesem Ansatz werden Datenmarts basierend auf den Geschäftsanforderungen gebaut. Das bedeutet, dass die Datenlagerschicht bereits in einer dimensionalen Form vorliegt (Sternschema oder Schneeflockenschema, siehe oben). Das bedeutet, dass im Kimballs Ansatz das Datenlager durch einen bis viele geschäftsspezifische Datenmarts gebaut wird. Offensichtlich hat diese Methode einen geringeren Fußabdruck, opfert aber bis zu einem gewissen Grad die Idee einer einzigen Quelle der Wahrheit. Kimball fasste seinen Ansatz 1997 wie folgt zusammen: „…das Datenlager ist nichts anderes als die Vereinigung aller Datenmarts“. Die Antwort darauf von Inmon im Jahr 1998 beschreibt schon recht gut, dass es einige Meinungsverschiedenheiten zwischen den beiden Ideen gibt: „Man kann alle Stinte im Ozean fangen und zusammenlegen und sie machen immer noch keinen Wal“. Jedoch zielen beide letztendlich auf dasselbe ab, nämlich ein unternehmensweites Datenlager als Basis für Business Intelligence (und mehr). Das bedeutet automatisch, dass es nicht immer möglich ist, eine klare Unterscheidung zu treffen und dass hybride Ansätze durchaus Sinn machen können. 

Data Vault 2.0: Flexibilität und Effizienz in moderner Datenarchitektur 

Ein neueres Konzept, das inzwischen auch die Unterstützung von Inmon erhalten hat, ist das von Data Vault 2.0. Es ist vergleichbar mit der Architektur von Inmon, da es ebenfalls die Idee verfolgt, ein normalisiertes Datenlager und geschäftsspezifische Datenmarts zu haben, die durch das Lager gespeist werden. Als solches kombiniert Data Vault 2.0 die Idee der Normalisierung und Sternschemata. Allerdings unterscheidet sich das Design des Datenlagers selbst. Es gibt drei wesentliche Tabellentypen in einem Data-Vault-Design, die über Schlüssel kombiniert werden. Das sind Hubs, Satellites und Links. Kurz beschrieben sind Hubs die Entitäten, Satellites ihre Attribute und Links werden verwendet, um die Beziehungen zwischen den Entitäten zu modellieren. Einer der Kernvorteile eines Data Vault ist, dass es sehr modulartig ist und daher Flexibilität bietet. Allerdings ist Data Vault auch nicht das Allheilmittel, das jederzeit verwendet werden sollte. Unser nächster Blogbeitrag wird Data Vault 2.0 im Detail betrachten. 

Die Nummer Drei: Drei Phasen der Modellierung und drei Hauptmodellentwürfe 

In diesem Artikel haben wir die drei Phasen der Entwicklung eines Datenmodells beschrieben: konzeptionelles Modell, logisches Modell und physisches Modell. Es wird empfohlen, diese Phasen Schritt für Schritt zu durchlaufen, da dies sehr vorteilhaft ist, um sicherzustellen, dass Sie wirklich modellieren, was benötigt und korrekt ist. Das Entity-Relationship-Diagramm eignet sich gut, um daran zu arbeiten. Wir von DataLab begleiten Sie gerne auf dieser Reise. Wenn es um den eigentlichen Entwurfsteil geht, haben wir drei große Namen vorgestellt: Inmon, Kimball und Data Vault. Allerdings können und sollten sie nicht immer strikt getrennt werden. Konzeptionelle Ideen des einen können auch für einen anderen hilfreich sein. Data Vault 2.0 wird als Modellierungstechnik von der modernen DataOps-Managementplattform Agile Data Engine verwendet. Der nächste Blogbeitrag wird Data Vault 2.0 detailliert beschreiben, da wir glauben, dass es ein sehr gutes Design ist, dem man folgen sollte, wenn man mehrere Quellen integriert. 

Lernen Sie in unserem Data Vault Experience Workshop die Prinzipien und praktischen Anwendungen von Data Vault kennen. Sie werden die Bedeutung der Datenmodellierung, ihre Auswirkungen auf eine agile BI-Schicht und die Bausteine des Data Vault-Ansatzes kennenlernen. Anhand praktischer Übungen können Sie sich mit anderen Datenexperten austauschen und Ihr Wissen anwenden. Jetzt Anmelden!

Read More
Unkategorisiert

Tag 24 – Qlik oder Power BI

Heute ist der 24. Tag unseres INFORM DataLab Adventskalenders! Hinter dem Türchen erwartet Sie ein informatives Infopaper zum Thema „Qlik oder Power BI? Welches ist das richtige BI-Tool für Sie?“. Nutzen Sie die darin präsentierten Einblicke, um eine wohlüberlegte Entscheidung zu treffen. Wir hoffen, dass Ihnen diese Informationen von Nutzen sind und wünschen Ihnen nicht nur besinnliche Festtage, sondern auch einen erfolgreichen Start ins neue Jahr!

Read More
Unkategorisiert

Tag 22 – Data Capability: Business Intelligence & Analytics

Herzlich willkommen zur Tür 22 unseres Adventskalenders! Hinter diesem Türchen erwartet Sie eine aufschlussreiche Grafik zum Thema ‚Data Capability: Business Intelligence & Analytics‘. Erfahren Sie, warum Daten zunehmend zum strategischen Asset werden und wie Business Intelligence sowie Analytics Unternehmen dabei unterstützen, fundierte Entscheidungen zu treffen. Entdecken Sie die Schlüsselrolle dieser Fähigkeiten durch interaktive Dashboards. Frohes Entdecken!

Read More
Unkategorisiert

Tag 21 – Data & AI

Es ist der 21. Tag unseres Adventskalenders! Entdecken Sie eine Grafik zum Thema Daten und KI- organisatorische Fähigkeiten. Daten werden zunehmend zu einem strategischen Asset für Unternehmen, da sie neue Geschäftsmodelle ermöglichen, Kundenbeziehungen verbessern und operative Prozesse optimieren können. Um diese Vorteile durch Daten, Analytics und KI zu realisieren, sind spezifische Fähigkeiten in den Bereichen Strategie & Konzept, Datenmanagement, Datenproduktentwicklung und Datenkultur & Transformation entscheidend.

Read More
Unkategorisiert

Tag 20 – Datenstrategie

Das 20. Türchen unseres Adventskalenders öffnet sich für Sie! Die Frage „Data Warehouse oder Data Lake zuerst?“ kann knifflig sein. Unser bevorzugter Ansatz besteht darin, die Ziele zu verstehen, Daten zu entdecken, die passende Technologie auszuwählen und anschließend Datenanwendungsfälle zu entwickeln. Auf diese Weise meistern wir Unsicherheiten systematisch und gestalten eine maßgeschneiderte, datengetriebene Transformation.

Read More
Unkategorisiert

Tag 19 – Prioritization of data use cases

Willkommen zum 19. Türchen unseres Adventskalenders! Hinter dieser Tür erwartet Sie eine aufschlussreiche Grafik zum Thema ‚Prioritization of data use cases‘. Die Grafik wird Ihnen verdeutlichen, wie Datenanwendungsfälle und Priorisierung von Daten einen entscheidenden Einfluss auf die Business-Performance haben. Tauchen Sie ein in spannende Erkenntnisse!

Read More
Unkategorisiert

Tag 18 – Excel vs. Fiplana

Fiplana ist eine von INFORM DataLab entwickelte Softwarelösung von höchster Qualität. Heute widmen wir uns im 18. Türchen unseres Adventskalenders der vertieften Betrachtung der Unterschiede und Vorteile von Excel und Fiplana im Kontext des Informationsmanagements und der Finanzplanung.

Wir laden Sie herzlich dazu ein, sich das Infopaper hinter dem heutigen Türchen durchzulesen und die vielfältigen Vorteile von Fiplana zu entdecken.

Read More
Unkategorisiert

Tag 17 – Data Governance

Herzlich willkommen zum 17. Türchen unseres Adventskalenders! Hinter diesem Türchen verbirgt sich ein exklusives Webinar mit dem Thema ‚Data Governance – Die digitale Transformation vorantreiben‘.

Dieses Webinar bietet einen Einblick in die Welt der Data Governance und wie sie die digitale Transformation in Ihrem Unternehmen vorantreiben kann. Verpassen Sie nicht die Chance, wertvolle Erkenntnisse über die effektive Verwaltung und Nutzung Ihrer Daten zu gewinnen.

Read More