Was ist eine Datenquelle?

Eine Datenquelle ist der Ort, aus dem die Daten stammen, die verwendet werden.

Eine Datenquelle kann der Ort sein, an dem die Daten entstanden sind oder an dem physische Informationen digitalisiert wurden. Selbst die am stärksten aufbereiteten Daten können eine Datenquelle sein – vorausgesetzt, ein anderer Prozess greift auf sie zu und verwendet sie. Konkrete Beispiele: Eine Datenbank, eine flache Datei, Live-Messungen physischer Geräte, gescrapte Webdaten oder einer der unzähligen Datenservices für statische Daten und Streaming-Daten, die man im Internet findet – das alles können Datenquellen sein.

Hier ein Beispiel einer Datenquelle in Aktion: Stellen Sie sich eine Modemarke vor, die ihre Produkte online vertreibt. Um anzeigen zu können, ob ein Artikel verfügbar oder vergriffen ist, bezieht die Website Informationen aus einem Warenwirtschaftssystem. In diesem Fall sind die Inventarlisten die Datenquelle, auf die die Webanwendung zugreift, die die Website für die Kunden bereitstellt.

Sich anzuschauen, wie der Begriff im verwandten Datenbankmanagement-Kontext verwendet wird, hilft, zu verdeutlichen, welche Datenquellen es gibt, wie sie funktionieren und wann sie nützlich sind.

Datenquelle: Begrifflichkeiten

Datenbanken sind nach wie vor die gebräuchlichsten Datenquellen, da sie die in den allgegenwärtigen relationalen Datenbankmanagementsystemen (RDBMS) die primären Datenspeicher sind. Ein wichtiges Konzept ist in diesem Zusammenhang der Data Source Name (DSN). Der DSN wird innerhalb von Zieldatenbanken oder -anwendungen definiert. Er verweist auf die tatsächlichen Daten, unabhängig davon, ob sie lokal vorhanden sind oder sich auf einem entfernten Server befinden (und unabhängig davon, ob sie sich an einem einzigen physischen Ort befinden oder virtualisiert sind). Der DSN stimmt nicht unbedingt mit dem Datenbank- oder Dateinamen überein. Er ist vielmehr eine Adresse oder Kennung, über die man die Daten einfach an der Quelle erreichen kann.

Prinzipiell gilt: Die Systeme, die Daten aufnehmen, geben den Kontext für sämtliche Diskussionen über Datenquellen vor, sodass die Definitionen und die Nomenklatur stark variieren und verwirrend sein können. Das gilt insbesondere für eher technische Dokumentation. Ein Beispiel: Im Fall der Softwareplattform Java bezieht sich „Datenquelle“ beispielsweise ausdrücklich auf ein Objekt, das die Verbindung zu einer Datenbank herstellt (z. B. ein erweiterbarer, vom Programm erstellter DSN). Einige neuere Plattformen hingegen fassen den Begriff weiter und meinen damit jede Sammlung von Daten, die einen standardisierten Zugriff ermöglicht.

Typen von Datenquellen

Angesichts der Nutzung von Technologien wie IoT und des Einsatzes von Big-Data-Verfahren steigt die Vielfalt an Inhalten, Formaten und Speicherorten für Daten stetig weiter. Die meisten Datenquellen lassen sich jedoch nach wie vor in eine von zwei großen Kategorien einteilen: Computer- und Dateidatenquellen.

Obwohl beide denselben Grundzweck haben – auf den Speicherort der Daten zu verweisen und ähnliche Verbindungsmerkmale zu beschreiben –, werden Computer- und Dateidatenquellen unterschiedlich gespeichert, aufgerufen und verwendet.

Computerdatenquellen

Computerdatenquellen werden ihre Namen von den Benutzern zugewiesen. Sie müssen sich auf dem Gerät befinden, das die Daten aufnimmt, und können nicht einfach freigegeben werden. Wie andere Datenquellen auch liefern Computerdatenquellen alle Informationen, die erforderlich sind, um eine Verbindung zu den Daten herzustellen, z. B. relevante Softwaretreiber und einen Treibermanager. Die Benutzer müssen sich allerdings immer nur auf den DSN als Abkürzung beziehen, um die Verbindung aufzurufen oder die Daten abzufragen.

Die Verbindungsinformationen werden in Umgebungsvariablen, Datenbankkonfigurationsoptionen oder an einem Speicherort in dem verwendeten Computer oder in der verwendeten Anwendung gespeichert. Eine Oracle Datenquelle enthält beispielsweise einen Serverstandort für den Remote-Zugriff auf das DBMS, Informationen darüber, welche Treiber verwendet werden sollen, und alle anderen relevanten Teile einer typischen Verbindungszeichenfolge, wie z. B. System- und Benutzer-IDs und Authentifizierung.

Dateidatenquellen

Dateidatenquellen enthalten alle Verbindungsinformationen in einer einzigen, gemeinsam nutzbaren Computerdatei (in der Regel mit einer .dsn-Erweiterung). Die Benutzer entscheiden nicht, welcher Name Dateidatenquellen zugewiesen wird, da diese Quellen nicht für einzelne Anwendungen, Systeme oder Benutzer registriert sind und de facto keinen DSN haben, wie Maschinendatenquellen ihn haben. Jede Datei speichert eine Verbindungszeichenfolge für eine einzige Datenquelle.

Im Gegensatz zu Computerdatenquellen kann man Dateidatenquellen bearbeiten und kopieren wie jede andere Computerdatei. Das ermöglicht es Benutzern und Systemen, eine gemeinsame Verbindung zu nutzen (indem sie die Datenquelle zwischen den einzelnen Computern oder Servern verschieben) und die Datenverbindungsprozesse zu optimieren (z. B. indem sie eine Quelldatei auf einer gemeinsam genutzten Ressource speichern, damit diese von mehreren Anwendungen und Benutzer gleichzeitig verwendet werden kann).

Es gilt zu beachten: Es gibt auch .dsn-Dateien, die nicht gemeinsam nutzbar sind. Es handelt sich dabei um denselben Dateityp wie oben beschrieben, aber die Dateien sind nur auf einem einzelnen Computer vorhanden und können nicht verschoben oder kopiert werden. Diese Dateien verweisen direkt auf Computerdatenquellen. Das bedeutet: Dateidatenquellen, die nicht gemeinsam genutzt werden können, sind Wrapper für Computerdatenquellen. Sie dienen als Proxy für Anwendungen, die nur Dateien erwarten, aber auch eine Verbindung mit Computerdaten herstellen müssen.

So funktionieren Datenquellen

Datenquellen werden auf unterschiedliche Weise genutzt. Daten können über verschiedene Netzwerkprotokolle transportiert werden, z. B. das bekannte File Transfer Protocol (FTP) und HyperText Transfer Protocol (HTTP) oder über eine der unzähligen Application Programming Interfaces (APIs), die von Websites, vernetzten Anwendungen und anderen Diensten bereitgestellt werden.

Viele Plattformen verwenden Datenquellen mit FTP-Adressen, um den Speicherort der zu importierenden Daten anzugeben. Ein Beispiel: In der Plattform Adobe Analytics wird eine Datenquelle mithilfe eines FTP-Clients auf einen Server hochgeladen. Anschließend verwendet ein Dienst diese Quelle, um die relevanten Daten automatisch zu verschieben und verarbeiten.

SFTP (Das S steht für „Sicher“ oder „SSH“) wird verwendet, wenn Benutzernamen und Kennwörter verschleiert und Inhalte verschlüsselt werden müssen. Alternativ kann auch FTPS verwendet werden, indem man das Verschlüsselungsprotokoll Transport Layer Security (TLS) zu FTP hinzufügt. So erreicht man dasselbe Ziel.

Mittlerweile werden viele verschiedene APIs bereitgestellt, um Datenquellen und ihre Verwendung zu verwalten. APIs werden verwendet, um Anwendungen programmgesteuert mit Datenquellen zu verknüpfen. Sie bieten in der Regel mehr Anpassungsmöglichkeiten und eine vielseitigere Auswahl an Zugriffsmethoden. Spark bietet z. B. eine API mit abstrakten Implementierungen für die Darstellung von und Verbindung mit Datenquellen – von simplen, aber erweiterbaren Klassen für generische relationale Quellen bis hin zu detaillierten Implementierungen für hartkodierte JDBC-Verbindungen.

Weitere Protokolle, mit denen Daten von Quellen zu Zielen, insbesondere im Web, verschoben werden können, sind u. a. NFS, SMB, SOAP, REST und WebDAV. Diese Protokolle werden oft innerhalb von APIs (und einige APIs nutzen intern selbst andere APIs) in voll funktionsfähigen Datenanwendungen oder als eigenständige Übertragungsprozesse verwendet. Jedes hat andere charakteristische Merkmale und Sicherheitsrisiken, die bei jeder Datenübertragung berücksichtigt werden sollten.

Der Zweck einer Datenquelle

Datenquellen sollen den Anwendern und Anwendungen helfen, sich mit den Daten zu verbinden und sie dorthin zu verschieben, wo sie benötigt werden. Sie bündeln relevante technische Informationen an einem Ort und verbergen sie, damit die Datenverbraucher sich auf die Verarbeitung konzentrieren und herausfinden können, wie sie ihre Daten optimal nutzen.

Sinn und Zweck: Die Verbindungsinformationen sollen in ein einfaches verständliches und benutzerfreundliches Format gepackt werden. Datenquellen sind somit wichtig, um verschiedene Systeme einfacher integrieren zu können, da sie es den Beteiligten ersparen, sich mit komplexen Low-Level-Verbindungsinformationen zu befassen und daraus resultierende Fehler zu beheben.

Und obwohl diese Verbindungsinformationen versteckt sind, kann bei Bedarf immer darauf zugegriffen werden. Die Informationen werden außerdem an den gleichen Orten und in einheitlichen Formaten gespeichert. Das kann andere Prozesse wie Migrationen oder geplante Änderungen der Systemstruktur erleichtern.

Datenquellen und Integration: erste Schritte

Sobald die Daten an ihrem endgültigen Ziel angekommen sind, vorzugsweise einem zentralisierten Repository wie einem Cloud Data Warehouse, sollten Unterschiede in Formatierung und Struktur ausgehend von der Quelle geglättet werden. Der allererste Schritt hin zur Datenintegration besteht jedoch darin, die ursprünglichen Datenverbindungen zu abstrahieren – eine komplexe Aufgabe, wenn man einmal bedenkt, auf wie viele Datenquellen über die Cloud zugegriffen werden kann.

Talend verkürzt den Weg von nicht verwaltbaren, uneinheitlichen Systemen zu einer einheitlichen Darstellung von vertrauenswürdigen Unternehmensdaten und hilft seinen Kunden so dabei, Daten aus Tausenden internen und cloud-basierten Quellen zu integrieren. Talend Data Fabric bietet eine komplette Anwendungssuite rund um die Datenintegration und -integrität, verbessert Ihre Datenwertschöpfungskette und sichert sie ab – von der ersten Verbindung über eine Datenquelle bis hin zu effektiven Analysen und Business-Intelligence.

Testen Sie Talend Data Fabric noch heute, um Ihre Datenquellen nahtlos zu integrieren und Erkenntnisse aus Daten zu gewinnen, denen Sie vertrauen können.

Sind Sie bereit, mit Talend durchzustarten?