Februar 25, 2024

Wenn Sie in der Datenmanagement-Branche tätig sind oder mit ihr in Kontakt stehen, werden Sie feststellen, dass viele Fachbegriffe verwendet werden. Die Terminologie von Anbietern und Beeinflussern kann recht unübersichtlich sein. Wenn Sie planen, eine Datenplattform aufzubauen oder Ihre bestehende zu verbessern, kann es eine ziemliche Herausforderung sein, zunächst die richtigen Konzepte für Sie auszuwählen (ohne Technologie, Tools und Implementierung zu berücksichtigen). Außerdem kann es schwierig sein, ein Konzept von einem kommerziellen Angebot zu unterscheiden, das von Anbietern verwendet wird. Daher möchten wir Ihnen einen Überblick über die allgemeine Terminologie und die Konzepte geben, die Ihnen vermutlich begegnen werden und die für Ihr Verständnis nützlich sind.

Warum sollte ich mich mit Datenmanagement befassen und die Zeit damit verbringen, die Ideen hinter den großen Worten zu lernen?

Letztlich geht es um eine bessere Entscheidungsfindung und um Zeit- und Kosteneinsparungen. Unternehmen wollen datengesteuerte Entscheidungen treffen und brauchen eine Demokratisierung der Daten. Eine Datenmanagement-Plattform kann als eine einzige Quelle der Wahrheit fungieren. Das bedeutet, dass die Abteilungen nicht mehr auf unterschiedliche Versionen derselben Fakten zugreifen müssen, was eine bessere Zusammenarbeit ermöglicht. Außerdem wird der Zugang zu den Daten vereinfacht und ist nicht mehr nur für höhere Managementebenen möglich. Daten können aufbereitet und bereitgestellt werden, z. B. für Analysezwecke. Durch die Speicherung nicht nur aktueller Informationen, die natürlich eine bessere Entscheidungsfindung unterstützen, sondern auch historischer Daten, wird auch die Grundlage für zukünftige Anwendungsfälle gelegt.

Allerdings ist nicht jede Datenmanagement-Plattform automatisch ein Selbstläufer. Es gibt kein Produkt, das Sie einfach kaufen können und das alle Ihre Probleme löst. Die Plattform muss selbst entwickelt werden. Um die Grundlagen für die Umsetzung einer hochwertigen Datenlösungsarchitektur zu schaffen, müssen Sie wissen, was Sie erreichen wollen. In den folgenden Abschnitten werden wir den ersten Schritt machen und Ihnen helfen, die allgemeinen Konzepte der Datenverwaltung zu verstehen.

Data Warehouse – Ein Urgestein, aber gut etabliert

Bei allen Terminologien, die wir im Folgenden beschreiben, einschließlich des Data Warehouse, geht es um das Konzept und nicht um eine Technologie. Schauen wir uns die Definition von Bill Inmon aus den 1990er Jahren an, die immer noch gültig ist: „Ein Data Warehouse ist eine themenorientierte, integrierte, zeitlich variable und nicht flüchtige Sammlung von Daten zur Unterstützung des Entscheidungsprozesses des Managements“. Eine Sammlung von Daten, d.h. ein Datenspeicher. Aber natürlich nicht irgendein Speicher oder einfach eine Kopie, sondern ein analysefähiger, der datengesteuerte Entscheidungen unterstützt. Ein Data Warehouse sammelt Daten aus verschiedenen Quellen. Entscheidend ist jedoch, dass es diese harmonisiert und zu einem konsistenten Ganzen zusammenfügt (integriert). Es geht also nicht um das System, aus dem die Daten stammen (was mehrere sein können), sondern um die Sache, die sie beschreiben (subjektorientiert). Wesentlich für datengestützte Entscheidungen sind nicht nur die Verfügbarkeit und Korrektheit der Daten, sondern auch ihre Aktualität. Daten können sich im Laufe der Zeit ändern, d.h. das Data Warehouse muss auch aktuelle Informationen enthalten (zeitvariant). Aber auch historische Daten können für die Analytik nützlich sein. Hier spielt das Data Warehouse seinen Vorteil aus, da es Daten im Laufe der Zeit sammelt und verarbeitet und somit historische Informationen liefern kann (nicht flüchtig).

Grundlagen des Data Warehouse: Zentrale Drehscheibe für Analysen und datengestützte Entscheidungen 

Zusammenfassend lässt sich sagen, dass ein Data Warehouse ein zentraler Ort ist, an dem Daten aus verschiedenen Quellen zusammengeführt und harmonisiert werden. Es enthält stets aktuelle Informationen, speichert aber auch historische Daten. Als solches ist es die zentrale Anlaufstelle für Analysen und datengesteuerte Entscheidungen.

Teilweise wird ein Data Warehouse auch über die Art der Daten definiert, die es enthalten kann. Mit den neuen Technologien wird diese Unterscheidung jedoch immer ungenauer. Im Allgemeinen kann ein Data Warehouse strukturierte Daten speichern, d. h. Daten, die in Tabellen gespeichert werden können. Zum besseren Verständnis denken Sie einfach an Daten, die Sie in Excel speichern können. Bis zu einem gewissen Grad können Data Warehouses auch semi-strukturierte Daten verarbeiten. Dabei handelt es sich um Daten, die z. B. in JSON- oder XML-Dateien gespeichert sind. Die dritte Kategorie sind unstrukturierte Daten. Das sind zum Beispiel PDFs oder Bilder. Dies führt uns jedoch direkt zum nächsten Abschnitt über Data Lakes.

Data Lake – Wofür entscheide ich mich, wenn ich meine Zeit nicht mit dem Modellieren und Organisieren von Daten verschwenden will?

Data Lake: Die kluge Wahl für zeiteffizientes Datenmanagement

Wie bereits erwähnt, führt uns der Begriff unstrukturierte Daten direkt zum Begriff Data Lake. Auch dieser ist heute ein weit verbreitetes und etabliertes Konzept im Datenmanagement. Es wurde eingeführt, um die Herausforderungen der explodierenden Datenmengen zu bewältigen und auch um den Bedarf an der Nutzung dieser unstrukturierten Daten in verschiedenen Anwendungsfällen zu decken. Dieser Trend wurde auch dadurch ermöglicht, dass die Speicherung in der Cloud wesentlich billiger geworden ist.

Ein Data Lake erfüllt einen ähnlichen Zweck wie ein Data Warehouse, indem er alle Daten in einem zentralen Repository speichert. Als Konzept ist er jedoch lockerer definiert als ein Data Warehouse, wie Sie zum Beispiel an dieser Definition von Gartner sehen können: „Ein Data Lake ist ein Konzept, das aus einer Sammlung von Speicherinstanzen für verschiedene Datenbestände besteht. Diese Bestände werden in einer nahezu exakten oder sogar exakten Kopie des Quellformats gespeichert und ergänzen die ursprünglichen Datenspeicher“.

Manch einer mag denken, dass das Konzept eines Daten Lakes wünschenswert ist, da er Daten in ihrem Rohformat enthält und daher keine Modellierungs- oder Overhead-Aufgaben erforderlich sind. An dieser Stelle möchten wir darauf hinweisen, dass dies ein Trugschluss ist. Auch Data Lakes benötigen dringend Datenmodellierungs- und Governance-Konzepte (mehr dazu in unserem nächsten Blog-Beitrag), da sie dazu neigen, zu Datensümpfen zu werden, wenn Daten einfach „weggeworfen“ werden.

Data Lakehouse – Das klingt nach einem begehrten Urlaubsort

Data Lakehouse: Das Beste aus Data Lake und Data Warehouse zusammenführen

Dies ist wahrscheinlich der am schicksten klingender Name. Oben haben Sie wahrscheinlich bemerkt, dass die Grenzen zwischen den beiden Konzepten Data Warehouse und Data Lake mit der Weiterentwicklung der Technologien in der Praxis unschärfer geworden sind. Es ist nicht mehr so einfach, z. B. nach der Art der gespeicherten Daten zu unterscheiden, da diese sich überschneiden. Eine vorherrschende Konvention besagt, dass eine moderne Datenplattform sowohl Data-Lake- als auch Data-Warehouse-Funktionen haben muss und dass eine Aufgabe eines Data-Lakes darin besteht, ein universelles Sammelbecken für alle Daten zu sein. So kann der Begriff „Data Lake“ beispielsweise zur Beschreibung der Landing Zone eines Data Warehouse verwendet werden (Stufe, in die Daten aus verschiedenen Quellen repliziert werden, bevor sie modelliert werden).

Dies zeigt, dass sich die Begriffe nicht mehr klar voneinander abgrenzen lassen. Das bekannteste kombinierte Technologiekonzept ist heutzutage ein Data Lakehouse. Dabei handelt es sich, wie der Name schon sagt, um ein Konzept, das Elemente von Data Lake und Warehouse kombiniert. Im Grunde ist es also ein ausgefallener Name für etwas, das sehr logisch zu machen ist.

Data Mart – Einfach unausweichlich

Data Mart: Eine wesentliche Komponente in Datenmanagement-Projekten

In Ihren Datenmanagement-Projekten werden Sie höchstwahrscheinlich auf einen Data Mart stoßen. Zumindest dann, wenn Sie Ihre Daten richtig modellieren (mehr dazu im nächsten Blogbeitrag). Ein Data Mart kann als eine Teilmenge eines Data Warehouse betrachtet werden. Sein Ziel ist es, anwendungsorientiert zu sein. Ihr Data Warehouse kann einen Satz harmonisierter und normalisierter Daten enthalten, die für mehrere Anwendungsfälle relevant sind. Ein Data Mart bereitet Daten so auf, dass sie den Bedürfnissen des Unternehmens und der Benutzer ideal entsprechen und für das Zielsystem (z. B. verschiedene BI-Tools) geeignet sind. D.h., es könnte mehrere Data Marts geben, die alle auf denselben Daten basieren, aber unterschiedlich aufbereitet sind.

Data Mesh – Das neue Kind im Block

Erforschung von Data Mesh: Dezentralisierte Datenverwaltung im Jahr 2024

Data Mesh ist ein neuer Begriff, der in diesem Blogbeitrag vorkommt. Er wurde von Zhamak Dehghani im Jahr 2019 entwickelt. Es ist wichtig zu beachten, dass Data Mesh kein Nachfolger eines Data Warehouses oder eines Data Lakes oder einer Kombination davon ist. Es ist auch kein Allheilmittel, das alle Probleme lösen wird. Lassen Sie uns jedoch besprechen, was es tatsächlich ist. Bisher war die Idee jeder Analyseplattform fast immer, ein zentralisiertes System um ein zentrales Datenteam herum zu haben. Es wurde jedoch festgestellt, dass dies zu einem Engpass werden kann, wenn die Analyseanfragen zunehmen und das Datenteam sie nicht alle bearbeiten kann. Daher folgt das Datennetz der Idee einer dezentralen, bereichsbezogenen Architektur. Das Fachgebietsteam übernimmt die Verantwortung für seine Daten und deren Verwaltung. Die Daten werden als Produkte für Verbraucher außerhalb der Domäne veröffentlicht. Das zentrale Datenteam ermöglicht es den Domänenteams, Datenprodukte zu nutzen und zu erstellen. Gute Governance-Prinzipien und Standardisierung sind dabei unerlässlich.

Data Powerhouse – Der Begriff, der Sie zum Lächeln bringt

Das Potenzial von Data Powerhouse freisetzen: Mehr als nur ein Buzzword

Um ehrlich zu sein, handelt es sich hierbei eher um eine informelle Darstellung und weniger um eine formale Abhandlung. Es ist wichtig, dass der Text klar und prägnant ist und keine umständlichen Beschreibungen oder komplexe Terminologie enthält. Der Begriff ‚Datenozean‘ ist ein Beispiel für eine Kombination von Begriffen, die zum Nachdenken anregen und auch zum Schmunzeln bringen können. Der Begriff ‚Data Powerhouse‘ bezieht sich auf die Kombination der Nutzung von Microsofts ‚Power Platform‘ mit einem Data Warehouse oder einem Data Lake. Es handelt sich hierbei um ein gutes Beispiel für unsere Behauptung in der Einleitung, dass es schwierig sein kann, zwischen einem Konzept und einem kommerziellen Angebotsnamen zu unterscheiden. Einige Personen verwenden den Begriff jedoch auch, um zu beschreiben, was aus Ihrem Unternehmen werden kann, wenn Sie eine effiziente Dateninfrastruktur implementieren.

Welchen schicken Namen soll ich jetzt wählen? Die Wahl der richtigen Datenmanagement-Strategie für Ihr Unternehmen

Am Ende können Sie es nennen, wie Sie wollen, solange Sie es richtig machen, es Ihren Bedürfnissen entspricht und Sie es anderen, mit denen Sie arbeiten, erklären können, so dass Sie alle auf derselben Seite stehen. INFORM DataLab kann Ihnen bei diesen Punkten auf dem Weg helfen, egal wo Sie gerade stehen. Wenn Sie eine Datenstrategie entwickeln möchten und sich fragen, wo diese hilfreich sein könnte und welchen Mehrwert Sie haben könnten, können Sie sich unser Angebot zur Datenstrategie ansehen. Falls Sie bereit sind, sich in den Aufbau Ihrer Datenarchitektur zu stürzen und nicht nur mit Begriffen zu jonglieren, stehen wir Ihnen ebenfalls gerne zur Seite (INFORM DataLab Data Management). Bleiben Sie außerdem dran für weitere hilfreiche Blogbeiträge. Im nächsten Beitrag werden wir der Frage nachgehen, ob Datenmodellierung im Jahr 2024 noch relevant sein wird.

Lernen Sie in unserem Data Vault Experience Workshop die Prinzipien und praktischen Anwendungen von Data Vault kennen. Sie werden die Bedeutung der Datenmodellierung, ihre Auswirkungen auf eine agile BI-Schicht und die Bausteine des Data Vault-Ansatzes kennenlernen. Anhand praktischer Übungen können Sie sich mit anderen Datenexperten austauschen und Ihr Wissen anwenden. Jetzt Anmelden!


AUTOR

Dr.-Ing. Maike Scholtes

Maike hat mehr als fünf Jahre Erfahrung aus mehreren nationalen und internationalen Projekten in der Forschung und der Industrie. Außerdem war sie mehrfach im Ausland tätig. Sie hat einen Hintergrund in Maschinenbau, Mathematik und Informatik und begeistert sich dafür mit Hilfe von Daten einen Mehrwert zu generieren. Maike ist kompetent im Bereich des Designs und der Implementierung verschiedener Datenmanagmentsysteme. Sie hat Kenntnisse im Bereich Extrahieren, Transformieren, Laden (ETL) sowie Data Warehousing und Data Lake Technologien.