Data Vault-Architektur schafft Grundlagen für DSGVO-Compliance

Wie mobile.de seine Datenlandschaft mit Lösungen von Talend und der Beratung durch Cimt modernisierte

 

Talend customer: Mobile.de

 

Wer heute seine IT-Infrastruktur modernisiert, wird vor allem darauf achten, dass sich operative Daten unternehmensweit schnell und transparent verarbeiten lassen. Damit verbunden sollten auch die Anforderungen an die Datenschutzgrundverordnung (DSGVO) erfüllt werden. Für den Automobil-Marktplatz mobile.de ging es in einem solchen Modernisierungsprojekt um zwei Aspekte: das zur Datenkonsolidierung verwendete Data Warehouse (DW) sollte modernisiert werden und gleichzeitig wollte das Unternehmen seine Prozesse rund um den Datenschutz nach DSGVO weiter optimieren. Die von dem Beratungshaus Cimt vorgeschlagene Lösung bestand darin, auf Basis der In-Memory-Datenbank von Exasol sowie der Integrationsplattform von Talend, ein Data Warehouse mit einer DSGVO konformen Data Vault-Architektur zu realisieren.

 

Warum ein Data Vault das bessere Konzept ist

Ein Data Warehouse übernimmt die Funktion eines zentralen Datenspeichers für Unternehmensdaten aus den verschiedensten Quellsystemen mit ihrer jeweils ganz eigenen Datenstruktur und Weiterentwicklung. Das hierfür verwendete Datenbanksystem muss zeitnah, zuverlässig und nachvollziehbar neue Informationen speichern können, gleichzeitig aber auch sehr flexibel auf Änderungen reagieren und skalierbar sein. Für den gesamten Lebenszyklus der Daten wird eine navigierbare und verständliche Struktur benötigt, die sowohl eine hohe Stabilität für etablierte Verfahren als auch die Agilität für die Anpassung an Änderungen und Erweiterung von Quellen und Auswertungen bereitstellt.

Ebenfalls wichtig: das System sollte auditfähig sein, sodass Prüfer transparent und nachvollziehbar erkennen können, auf welcher Datenlage Auswertungen durchgeführt und Entscheidungen getroffen wurden.

Customer: mobilede

Flexibel einsetzbar und erweiterbar

Um diese Anforderungen zu erfüllen, wurde bereits in den 1990er Jahren von Dan Linstedt eine spezielle Datenarchitektur entwickelt, die heute als Data Vault in immer mehr Data Warehouse Projekten angewendet wird. Die dabei vorgeschriebene tabellarische Entkopplung der Daten führt zu einer agilen und einfachen Erweiterbarkeit des Datenmodells. Anders ausgedrückt: Das Konzept erlaubt, auch nach Etablieren einer initialen Datenstruktur das Hinzufügen weiterer Felder, Tabellen und Beziehungen ohne das Ursprungsmodell anzutasten. Erweiterungsprojeke können sich dadurch auf die von ihnen fokussierten Anwendungsfälle konzentrieren und müssen keine schon bestehenden Teile das Datawarehouse anpassen oder testen.  Damit unterstützt das Data Vault-Modell systematisch die iterative Herangehensweise und kommt agilen Entwicklungsmethoden sehr entgegen.  Entsprechend fallen die Projektkosten gegenüber anderen Architekturansätzen wesentlich geringer und sind präziser kalkulierbar aus.

 

Performance und Skalierbarkeit

Die Data Vault Prinzipien ermöglichen ein unabhängiges paralleles Laden aus den verschiedenen Quellelementen, obwohl die Daten inhaltlich vernetzt werden. Damit gewinnt die DW-Bewirtschaftung an Geschwindigkeit und verringert gleichzeitig ihre Komplexität, da es nur wenige prozesstechnische Abhängigkeiten gibt.

 

Datenbank mit History-Funktion

Transparenz und zeitliche Nachvollziehbarkeit sind ein weiteres Grundprinzip des Data Vault-Konzeptes. Metadaten über Ladezeitpunkt und -prozess sowie zur Datenquelle werden an jedem Datensatz mitgeführt. Weiterhin gibt es Prinzipien, um die Gültigkeit von Daten zu verfolgen, sei es als Gültigkeitsintervall oder als „Zeit seit der letzten Sichtung“.
Eine Betrachtung der Daten, wie sie zu einem bestimmten Zeitpunkt vorhanden waren und die lückenlose Rückverfolgung der Datenherkunft ist damit möglich.

 

Datenschutz eingebaut

Die zwei wesentlichen Grundsätze der DSGVO, den Zugriff auf personenbezogene Daten nur in berechtigten Anwendungsfällen zu gestatten und bei berechtigter Forderung die Daten zu löschen, sind eine diametrale Anforderung an ein Data Warehouse, da dieses einen einfachen Zugriff auf kombinierbare Daten ermöglicht und Daten historisiert über mehrere Jahre bereitstellt. Als Lösung haben die Data Warehouse Architekten von Cimt ein Verschlüsselungsverfahren ergänzt, dass die DSGVO Anforderungen im Datawarehouse umsetzbar macht und sich dabei nahtlos in die Data Vault Prinzipien einfügt. Das Konzept greift dazu nur in die Datenübernahme von der Quelle sowie in den Zugriff auf entschlüsselte Daten ein. Die weitere Verarbeitung im Rahmen der Bewirtschaftung des Data Warehouse, wird durch das Verfahren nicht beeinflusst.

 

Funktionstüchtige Lösung

Die IT-Experten von Cimt haben für mobile.de auf Basis der Datenintegrationsplattform Talend Data Fabric eine skalierbare Beladung eines Data Warehouses mit einem Data Vault-Modell realisiert. Mit Talend werden die verschiedenen Datenquellen (Datenbanken, REST API, Salesforce API) an das zentrale DW angebunden und alle notwendigen Schritte zur Zerlegung (JSON), Verschlüsselung und zur Überführung in das Data Vault Modell einfach umgesetzt.

 

Die implementierte Lösung zeigt, dass sich auf Basis von Talend die Beladungsprozesse sehr flexibel nach individuellen Anforderungen gestalten lassen. Herauszuheben ist dabei der einfache Einbau der Hashing- und Verschlüsselungsschritte in die Ladestrecken sowie der übersichtliche und per Design klar strukturierte, modulare Aufbau der Jobs.

Fazit

Insgesamt sind die Prozesse rund um das Datenmanagement bei mobile.de transparenter und nachvollziehbarer geworden. Die Prinzipien für die DSGVO konforme Haltung der Daten sind inzwischen eine wichtige Säule für den zukunftssicheren Betrieb des Data Warehouse.
Dank Talend Data Fabric ist die Implementierung leicht verständlich und vermittelbar, so dass personelle Skalierung und Veränderungen im Entwicklerteam reibungsarm vonstattengehen. Ebenso ist die Überprüfung des Verschlüsselungsverfahrens durch Personen von außerhalb des Entwicklerteams gut unterstützt.

 

Autoren:
Matthias Wegner, Lead BI Berater bei cimt AG
Jan Wetzke, Regional VP Sales Central & Eastern Europe bei Talend

 

An der Diskussion teilnehmen

0 Comments

Leave a Reply