Was ist eine Data Pipeline?

Data Pipeline (dt. Datenpipeline) beschreibt im Wesentlichen alle Schritte, die beim Verschieben von Daten zu durchlaufen sind. Um vom Quellsystem zum Zielsystem zu gelangen, führt die Datenpipeline unter anderem durch folgende Etappen: 

  • Kopieren von Daten 
  • Übertragen von Daten in die Cloud 
  • Kombinieren von Daten mit anderen 
  • Ggf. Formatieren oder Strukturieren der Daten 

Die Data Pipeline sorgt dafür, dass die Schritte für alle zu übertragenden Daten identisch ablaufen und konsistent sind.

Der wachsende Bedarf an Datenpipelines

Unternehmen setzen Datenpipelines ein, um das Potenzial ihrer Daten möglichst schnell zu entfalten und Kundenwünsche effektiv erfüllen zu können.

Die IDC schätzt in einer Studie von 2018, dass bis 2025 88 bis 97 Prozent der weltweiten Daten nicht mehr gespeichert werden. Stattdessen erfasst, verarbeitet und analysiert der Arbeitsspeicher die Daten in Echtzeit. Diese Prognose ist nur einer der vielen Gründe für den wachsenden Bedarf an skalierbaren Data Pipelines: 

  • Beschleunigte Datenverarbeitung: Die Zeit für die Datenverarbeitung ist knapp und die Qualität der Daten von höchster Bedeutung, insbesondere für Entscheider. Fehlerhafte Daten haben nur geringen Wert, sie sind häufig unvollständig, veraltet oder falsch formatiert. Eine mühsame, mehrere Stunden erfordernde Berichtigung von Daten in Tabellenkalkulationen wie Excel ist heutzutage keine Option mehr.
  • Mangel an Data Engineers: Nicht zuletzt aufgrund des Mangels an qualifizierten Data Scientists sind Unternehmen der sich immer schneller drehenden Produktivitätsspirale ausgeliefert. Diese Situation lässt den Ruf nach intuitiven Datenpipelines immer lauter werden.
  • Innovationen geben das Tempo vor: Viele Unternehmen sind an starre Infrastrukturen gebunden. Veraltete Funktionen und Prozesse halten sie in ihrer Entwicklung zurück. Angesichts der Menge und Vielfalt an Daten benötigen sie jedoch skalierbare Datenpipelines, die sich jederzeit an wechselnde Anforderungen anpassen lassen.

So funktioniert eine Data Pipeline

Ein typisches Unternehmen setzt zahlreiche Anwendungen, Datenbanken und andere Informationsquellen wie Excel-Tabellenkalkulationen und Anrufprotokolle ein. Diese müssen in der Lage sein, untereinander Informationen auszutauschen.  

Mit dem Erfolg neuer Cloud- und Big-Data-Technologien steigt die Komplexität der Daten sowie die Erwartungen der Stakeholder. Mithilfe einer Datenpipeline lassen sich diese Rohdaten erfassen und übertragen. Unternehmen können dadurch neue Erkenntnisse gewinnen.

Die Datenpipeline beschreibt den gesamten Weg der Daten durch ein Unternehmen. Folgende vier Schritte durchlaufen die Daten in der Data Pipeline.

1. Erfassen und Extrahieren der Roh-Datasets

Datensätze sind kombinierte Daten, die aus mehreren verschiedenen Quellen stammen können. Sie liegen in unterschiedlichen Formaten vor, zum Beispiel: 

  • Datenbanktabellen 
  • Dateinamen 
  • Themen (Kafka) 
  • Warteschlangen (JMS) 
  • Dateipfade (HDFS). 

In dieser Phase der Datenpipeline sind die Daten nicht strukturiert oder klassifiziert. Die riesige Menge an Daten lässt in dieser Form noch keine sinnvollen Schlüsse zu.

2. Datenmanagement

Im nächsten Schritt der Datenpipeline gilt es, die Daten mithilfe einer bestimmten Methode umfassend zu organisieren. Dies nennt sich Data Governance. Dabei werden zunächst die Rohdaten in einen geschäftlichen Kontext gebracht, sodass sie Sinn ergeben. Anschließend erfolgt die Kontrolle der Datenqualität und -sicherheit. Die Daten lassen sich nun für die Massennutzung organisieren. 

3. Datentransformation

Nun folgt die Datentransformation, in der Datensätze entsprechend der passenden Berichtsformate bereinigt und geändert werden. Unnötige oder ungültige Daten verschwinden. Das Unternehmen bestimmt die Regeln und Richtlinien, nach denen das Data-Pipeline-Programm die verbleibenden Daten mit Informationen anreichert. Um die Qualität und Zugänglichkeit der Daten zu gewährleisten, sollte diese Phase der Datenpipeline folgende Schritte umfassen: 

  • Standardisierung:  Das Unternehmen muss definieren, welche Daten sinnvoll sind und wie sie diese formatiert und abgespeichert haben möchten. 
  • Deduplizierung:  Das Unternehmen meldet sämtliche Duplikate den Data Stewards. Redundante Daten gilt es zu löschen und / oder auszuschließen. 
  • Prüfung:  Eine Durchführung automatisierter Checks empfiehlt sich, um ähnliche Informationen wie Transaktionszeiten und Zugriffsprotokolle zu vergleichen. Durch Prüfungen lassen sich unbrauchbare Daten weiter aussortieren und Anomalien in Systemen, Anwendungen oder Daten identifizieren. 
  • Sortierung: Durch das Gruppieren von Elementen wie Rohdaten oder Multimediadateien in entsprechende Kategorien lässt sich die Effizienz der Datenpipeline steigern. Transformationsregeln legen fest, wie jeder Datenteil klassifiziert wird und welchen Schritt er als Nächstes durchläuft. Diese Transformationsschritte reduzieren die Menge an unbrauchbarem Material und wandeln sie in qualifizierte Daten um.
  • Weitergabe der Daten: Nach der Transformation erhält das Unternehmen verlässliche Daten, die sie nutzen können. Die Daten werden häufig in einem Cloud Data Warehouse oder in einer Anwendung ausgegeben.

4. Datenverarbeitung und -integration

Das Ziel jeder Datenpipeline ist die Datenintegration, denn Verbraucher möchten verwertbare Daten in Echtzeit erhalten. Daher sollten Unternehmen im besten Fall einen reproduzierbaren Prozess für die Data Pipeline nutzen. Dieser sollte Batch- oder Streaming-Jobs unterstützen und mit den Anforderungen der Cloud- oder Big-Data-Plattform kompatibel sein.

Datenpipeline in der Talend Cloud Integration Platform

Die Talend Cloud Integration Platform umfasst Datenqualitätstools, mit deren Hilfe sich die Prozesse der Data Pipeline automatisieren und einfach integrieren lassen – unabhängig von Format und Quelle. Cloud Integration von Talend umfasst zudem: 

  • hochentwickelte Sicherheitsfunktionen  
  • über 900 Konnektoren  
  • eine Vielzahl von Tools für das Datenmanagement 

Damit verläuft die Integration innerhalb der Datenpipeline vom ersten bis zum letzten Schritt reibungslos. Laden Sie noch heute eine kostenlose Testversion herunter. Entdecken Sie, wie schnell und einfach sich Datenqualitätsziele erreichen lassen. 

Talend hat vor Kurzem Stitch erworben. Dadurch können Mitarbeiter eines Unternehmens eine größere Menge an Daten erfassen und verarbeiten. Außerdem lässt sich diese Erweiterung nahtlos mit Talend verwenden. So leiten Unternehmen noch schneller effektive Erkenntnisse ab.

Sind Sie bereit, mit Talend durchzustarten?