Data Lineage: Management, Definition und Vorteile

Data Lineage, zu Deutsch Datenherkunft, ist ein integraler Bestandteil von Unternehmen, obgleich dieser in vielen nicht ausreichend Beachtung erfährt. In gewisser Weise ist jede Abteilung eines Unternehmens von Geschäftsdaten abhängig. Während sich viele Firmen damit beschäftigen, wie sie ihre Daten am besten verwalten, wird häufig die Frage vernachlässigt, wie gut die Daten für Ihr Unternehmen funktionieren.

Was ist Data Lineage?

Data Lineage rückverfolgt die Ursprungsdaten von den in einem Data-Warehouse-System (Datenlager) zusammengetragenen Datensätze und ermittelt so deren Entstehungspunkt. Dabei ist es von großer Bedeutung, die Details ihrer Herkunft zu kennen, wie sie dorthin gelangt sind und wie sie sich durch das Unternehmen bewegen. Verwenden Sie eine Data Lineage Software, um die Herkunft Ihrer Daten zu ergründen und diese interpretieren, verstehen und weiterverarbeiten zu können. 

Data Provenance und Data Lineage: Definition und Unterschiede

Während Data Lineage eine eingehende Herkunftsbeschreibung von Daten einschließlich ihres analytischen Lebenszyklus liefert, ist die Data Provenance ihr historischer Aufbewahrungsort. Data Provenance ist verantwortlich für die Bereitstellung einer Herkunftsliste bestimmter Daten, wie zum Beispiel Inputs, Entitäten, Systeme und Prozesse. Dadurch ermöglicht sie es Datenwissenschaftlern, die Qualität dieser Daten zu bestimmen.

Informationen aus der Data Provenance unterstützen z. B. bei den folgenden Vorhaben:

  • Nachverfolgung von Fehlern
  • Nachvollziehen des Verlaufs von Updates
  • Datenquellenidentifikation
  • Sortierung von Quelldaten in einem Data Warehouse
  • Identifizierung relevanter Prüfpfade für die Verwaltung

Data Provenance kann verwendet werden, um die Datenqualität zu bestimmen. Dies ermöglicht die ...

  • ... Entscheidungsfindung in Bezug auf bestimmte Daten, indem offengelegt wird, wie sie gesammelt wurden.
  • ... Bestimmung der Vertrauensebene hinter den Daten.
  • ... Verifizierung des zur Datenerfassung verwendeten Verfahrens.
  • ... Vervielfältigung des Prozesses, wenn dies sinnvoll ist.

Es gibt einige verschiedene Varianten von Data Provenance, darunter die Copy-Provenance, How-Provenance und Why-Provenance. Zu letzterer zählt auch die Data Lineage, wobei der Schwerpunkt auf dem Datenfluss liegt.

Warum ist Data Lineage wichtig?

Angesichts stetig zunehmender Datenströme, die über die Cloud verfügbar sind, benötigen Unternehmen einen Datenzugriff sowie eine einfach umsetzbare Business Intelligence. Informationen, die sich vom Datenlebenszyklus entnehmen lassen, einschließlich der Art und Weise, wie sich die Daten durch ETL (Extrahieren, Transformieren, Laden), Berichte und Datenbanken bewegen, helfen einem Unternehmen, Aspekte der Produktlebensdauer zu verbessern.

Allein durch die Rückverfolgung der Quellen können Informationen bereitgestellt werden, die sowohl die Fehlerbehebung als auch Prozessänderungen erleichtern. Zudem wird der Zeit- und Ressourcenaufwand für unvermeidliche Systemmigrationen reduziert, wenn Aktualisierungen unumgänglich werden. Die Datenqualität wird zudem durch die Rückverfolgung von Änderungen verbessert. Dadurch erhalten Unternehmen die Information darüber, wer eine Änderung vorgenommen hat, wie etwas aktualisiert wurde und welche Prozesse vonstattengingen. Außerdem wird dadurch sichergestellt, dass die Daten stets durch Datensicherungsprogramme fließen. Ein Data Lineage Tool schafft bei den Anwendern ein unschätzbares geschäftliches Vertrauen.

Als besonders vorteilhaft erweist sich Data Lineage in den folgenden Unternehmensfeldern:

  • Geschäftliche Rentabilität: Qualitätsdaten halten ein Unternehmen im Geschäft. Alle Abteilungen, einschließlich Marketing, Produktion, Management und Vertrieb, sind auf hochwertige Datensätze angewiesen. Die aus den demografischen Daten und dem Kundenverhalten gesammelten Informationen helfen, das Design zu verfeinern und die Produktverfügbarkeit zu verbessern. Änderungen, die im Laufe der Zeit getätigt werden, können von den Teamleitern regelmäßig überprüft werden. Dies hilft ihnen bei der Entscheidungsfindung bezüglich Produkten und im Vertrieb. Die durch Data Lineage bereitgestellten Details zeichnen ein Bild, mit dem sich ein Unternehmen kontinuierlich zu seinen Produkten weiterbilden kann.
  • Datenänderungen: Daten ändern sich im Laufe der Zeit. Neue Wege der Datenerfassung und Datenakkumulation müssen daher kombiniert und analysiert werden. Nur so können diese vom Management zur Generierung von Einnahmen genutzt werden. Data Lineage bietet eine Möglichkeit zur Nachverfolgung, die diese schwierige Aufgabe lösbar macht.
  • IT-Anforderungen: Wenn Ihr IT-Team einen neuen Software-Entwicklungsprozess erstellt, benötigt es Zugang zu allen Datenquellen. Die umfassende Liste, die von einem Data Lineage Tool bereitgestellt wird, ermöglicht es, dass Datenquellen schnell aufgefunden werden – das spart sowohl Zeit als auch Geld.
  • Datenverwaltung: Die wichtigen Details, die anhand Data Lineage ersichtlich werden, sind der beste Weg, um die Einhaltung gesetzlicher Vorschriften zu gewährleisten und das Risikomanagement zu verbessern. So können Unternehmen fundierte Entscheidungen treffen.

Möchte ein Unternehmen z. B. überprüfen, wo Vertriebsinformationen in das System eingegeben wurden, um eine Idee zu einem neuen Produkt oder Prozess zu testen, kann Data Lineage diese Informationen liefern. Jeden Tag gelangen außerordentlich viele Daten in ein Geschäftssystem. Die dadurch auftretenden Risiken lassen sich mit Data Lineage reduzieren, indem Informationen über die Herkunft der Daten und deren Weg durch das System einsehbar sind.

Wenn es um das Vertrauen in Daten sowie die Unternehmensführung geht, wird Data Lineage eine besonders bedeutende Rolle zuteil. So unterliegen beispielsweise das Gesundheitswesen und die Finanzbranche einer strengen behördlichen Berichterstattung. Sie müssen sich auf korrekte Angaben bezüglich der Herkunft der Daten verlassen und ihre Abstammung nachweisen können – insbesondere bei Open-Source-Technologien. Es bedarf einer strikten Aufzeichnung, woher die Daten stammen, wie sie verwendet wurden, wer sie angesehen hat und ob sie gesendet, kopiert, transformiert oder empfangen wurden – und zwar in Echtzeit. Dadurch wird sichergestellt, dass jederzeit alle Einzelheiten über jede Person oder jedes System, die mit den Daten in Kontakt stehen, verfügbar sind.

Data Lineage: die Cloud als Zukunftsmodell

Daten vereinfachen zum einen die Rolle der Informationssammlung, erschweren jedoch aufgrund ihrer schieren Masse ihre Verwaltung in einigen Bereichen. Das Internet, Cloud Computing, mobile Geräte sowie das Internet of Things (IoT) haben Unternehmen bereits Daten in großen Mengen zugänglicher gemacht. 

Data Governance umfasst Prozesse, Rollen, Richtlinien, Standards und Metriken, die eine effiziente Nutzung von Informationen ermöglichen. In der Cloud ist dies unerlässlich. Data Lineage hilft beim Sortieren und Organisieren all dieser Daten und bietet Unternehmen einen klaren Überblick über ihre Daten – für effiziente Faktenprüfung und schnellen Zugriff. 

In dem Maße, wie sich die Cloud weiterentwickelt, wird die Datenabstammung für Governance-Fragen immer wichtiger. Data Governance schützt zwar die Daten, kann aber auch den Zugriff verlangsamen oder einschränken. Vertrauenswürdige Daten, die nicht zum richtigen Zeitpunkt an die richtige Ressource geliefert werden, können sich negativ auf die Markteinführungszeit auswirken. Die Rückverfolgung der Data Lineage ist essenziell, um Fehler direkt zu beheben.

Eine Cloudlösung bietet Skalierbarkeit und reduzierte Kosten sowie Deduplizierung, Datenqualität, einfachen Datenaustausch und die Erfassung und Speicherung mehrerer Quellen. Die Data Governance, die ein Data Lineage-Tool bietet, ist der Schlüssel zu einem reibungslosen Ablauf in der Cloud.

Data Lineage Management richtig angehen

Die Allgemeine Datenschutzverordnung (DSGVO), die im Mai 2018 in Kraft getreten ist, verlangt von Organisationen, sich auf Data Lineage zu konzentrieren, um den Datenfluss durch ihr System zu verstehen. Data Lineage bietet Data Governance, indem es zukünftige Änderungen und Übergänge nachvollziehbar und formbar macht. Aber wo sollten Sie mit Ihrem Data Lineage Management beginnen?

  1. Datenelemente identifizieren: Kontaktieren Sie Geschäftsanwender, um kritische Punkte für die Unternehmensfunktion zu identifizieren.
  2. Ursprung nachverfolgen: Verfolgen Sie die aufgelisteten Elemente nacheinander bis zu ihrem Ursprung zurück.
  3. Quellen und Links notieren: Erstellen Sie eine Übersicht, um Quellen zu beschriften und Elemente zu verknüpfen, die sich kombinieren lassen.
  4. Erstellen einer Karte: Erstellen Sie Karten für jedes einzelne System sowie eine Hauptkarte des Gesamtbildes.

Das passende Data Lineage Tool für Ihr Unternehmen

Setzen Sie auf eine cloudbasierte Lösung, die den Ermittlungsprozess der Datenherkunft optimiert, um die beste Nachverfolgung, Überwachung und Steuerung zu gewährleisten.

Talend Data Fabric ist eine cloudbasierte Anwendungssuite, die branchenweit führend in der Datenintegration und im Datenmanagement ist. Das umfassende Data Lineage Tool wartet mit End-to-End-Vorteilen auf wie:

  • Datenerfassung
  • Data Governance
  • Datentransformation
  • Datenqualität und gemeinsame Nutzung

Beginnen Sie noch heute mit der Kartierung der Reise Ihrer Daten. Probieren Sie Talend Data Fabric aus, um das Potenzial Ihrer Unternehmensdaten voll ausschöpfen zu können.

Sind Sie bereit, mit Talend durchzustarten?