Metadaten – der strukturierte Weg aus dem Datenlabyrinth

Metadaten begegnen uns jeden Tag. Denn ob beim Auswählen des nächsten Lieblingsbuches oder beim Abspeichern der letzten Urlaubsfotos – in vielen Fällen sind uns die Datendimensionen, die uns umgeben, gar nicht bewusst. Genau an dieser Stelle kommen die Metadaten ins Spiel. Sie erleichtern den Umgang mit großen Data Lakes und deren Einordnung sowie Auswertung. Doch was genau verbirgt sich hinter dem Begriff, welche Beispiele gibt es und wie lassen sich Metadaten auslesen?

Was sind Metadaten?

Kurz gesagt handelt es sich bei Metadaten um Daten über Daten. Also um (Meta-) Informationen, die das Auffinden, Organisieren, Verwalten und Vergleichen von Daten erleichtern. Sie helfen dabei, grundlegende Fragen zu beantworten, die sich Nutzer über bestimmte Daten stellen:

  • Was sind das für Daten?
  • Wann sind diese Daten entstanden?
  • Warum sind sie entstanden?
  • Wer hat sie erstellt?
  • Wofür sind sie zu gebrauchen?

Durch die Klärung dieser Fragen lassen sich die Daten besser charakterisieren. So enthalten Dokumente oder Excel-Tabellen Attribute über Autoren, Erstellungsdaten, Änderungsdaten und Sprachen. Diese Attribute gelten als Metadaten.

Welche Arten von Metadaten gibt es?

Grundsätzlich lassen sich Metadaten in drei große Kategorien einteilen. Sie alle erfüllen unterschiedliche Nutzerbedürfnisse, sorgen jedoch stets dafür, selbst große Mengen an Daten einfacher zugänglich zu machen. Es lässt sich unterscheiden zwischen:

  • beschreibenden Metadaten (z. B. Angaben zu Titel, Datum und bspw. Länge eines Videos)
  • strukturellen Metadaten (z. B. Angaben zum Aufbau der Ressource sowie Datenmodelle und Referenzdaten)
  • administrativen Metadaten (z. B. Informationen zur Verwaltung einer bestimmten Ressource)

Bei sehr differenzierter Betrachtung von Metadaten lassen sich noch weitere Typen von Metadaten abgrenzen, darunter:

  • technische Metadaten (z. B. Angaben zu den Merkmalen einer digitalen Ressource wie verwendete Codierverfahren)
  • Aufbewahrungsmetadaten (z. B. Informationen darüber, wie eine digitale Datei zu speichern und zu pflegen ist)
  • Herkunftsmetadaten (geben Auskunft, woher die Daten ursprünglich stammen (bspw. bei häufig duplizierten Daten))
  • Nutzungsmetadaten (geben Angaben zu den Daten, die entstehen, wann immer ein Nutzer auf sie zugreift)
  • rechtliche Metadaten (Hinweise zu Lizenzierungen und Urheberrechten)

Welche Beispiele für Metadaten gibt es?

Beispiele von Metadaten finden sich in zahlreichen Bereichen sowie Dateiformaten. Dazu gehören unter anderen:

  • Bilddateien
  • Audiodateien
  • Dokumentdateien
  • Excel-Tabellen (z. B. zu Finanzdaten)
  • Computerdateien
  • Webseiten

Im Folgenden finden sich zwei näher erläuterte Beispiele, wie genau die Metadaten in einem konkreten Fall aussehen können.

Metadaten-Beispiel: Bilddateien

Fast jeder begegnet ihr wohl mindestens einmal in seinem Leben, wenn nicht gar täglich: der Bilddatei. Doch hinter jeder Datei verbergen sich jede Menge Informationen über das Bild selbst. In der Regel handelt es sich um eines von drei verschiedenen, gängigen Formaten, die es ermöglichen, die Metadaten eines Fotos zu speichern:

  • Exif
  • IPTC-IIM
  • XMP

Das Exif-Format erfreut sich dabei der größten Beliebtheit. Darin lassen sich unter anderem folgende Daten speichern:

  • Datum und Uhrzeit der Aufnahme
  • Blende, Belichtungszeit, Brennweite etc.
  • Informationen zum Fotografen
  • Vorschaubild
  • GPS-Angaben dazu, wo der Fotograf das Bild aufgenommen hat

Wer die Metadaten einer Bilddatei im Exif-Format auslesen möchte, hat im Grund zwei Möglichkeiten. Zum einen lassen sich die Informationen direkt auf dem Display der Kamera einsehen. Zum anderen ermöglichen Computerprogramme oder das Betriebssystem Windows direkten Zugriff auf die Daten: Unter Eigenschaften und Details, die sich mit einem Klick auf die rechte Maustaste aufrufen lassen, sind die wichtigsten Metadaten aufgelistet.

Metadaten-Beispiel: Suchmaschinenoptimierte Texte

Der Verwendung von Metadaten spielt bei Webseiten noch einmal eine völlig andere Rolle. Denn sie geben nicht nur Auskunft über eine einzelne Datei, sondern eine gesamte URL. Entscheidend ist dabei die korrekte Verwendung von sogenannten Meta-Tags, die Informationen zum Inhalt beziehungsweise den Daten einer URL enthalten. Diese finden sich sowohl im HTML-Code einer Webseite als auch im Meta Title und der Meta Description. Dabei gilt es Folgendes im Hinterkopf zu behalten:

  • Die Meta-Tags im HTML-Code sind für Nutzer unsichtbar. Lediglich Suchmaschinen wie Google nutzen sie, um den Content einer URL zu erfassen.
  • Meta-Title und Meta-Description sind meist das erste, was User sehen , bevor sie eine bestimmte Webseite besuchen. Google zeigt diese in den relevanten Ergebnissen für bestimmte Suchanfragen an.
  • Die Meta-Tags sind wohl überlegt einzusetzen, um dem Nutzer den bestmöglichen Überblick über den Seiteninhalt zu gewähren.
  • Sowohl Meta Title als auch Meta Description sollten für jede URL individuell sein.

Sind all diese Punkte umgesetzt, bringen die Metadaten einer Webseite denselben Nutzen wie andere Metadaten: Sie erleichtern es, die hinterlegten Informationen einzuordnen und zu nutzen.

Nutzung von Metadaten in Ihrem Unternehmen

Rund 90 Prozent der weltweit vorhandenen Daten haben ihren Ursprung in den letzten zwei Jahren. Um diese Daten nutzbar zu machen, eignen sich Metadaten-Management-Tools. Ein solches Instrument ermöglicht es, Daten schneller zu finden, indem es ihnen ein Kontext sowie eine Herkunft zuweist. Mit dieser Fülle an Daten sehen sich auch Unternehmen konfrontiert. Deshalb ist es sinnvoll, einen Blick darauf zu werfen, wie sich Metadaten zur Verbesserung von Big-Data-Prozessen eignen:

  1. Big Data-Stammdatenverwaltung: Insbesondere große Datenmengen, die aus mehreren Quellen stammen, sind aufwendig zu verarbeiten. So können sich Datensätze stark unterscheiden. Daher ist die Erstellung eines Stammdatensatzes essenziell, um eine ausreichende Datenintegrität zu gewährleisten. Hinzu kommt, dass der Umgang mit halbstrukturierten Daten (z. B. XML-Dateien) und unstrukturierten Daten (z. B. Videos) sehr komplex ist. Metadaten leisten Abhilfe, indem sie bestimmen, welches Quellsystem in einer bestimmten Situation zuverlässiger und welcher Datensatz der aktuelle ist. So haben sie entscheidenden Einfluss auf Big Data Governance.
  2. Verwaltung der Zugriffsberechtigung: Das Thema Datenschutz gewinnt in der Cloud zunehmend an Bedeutung. Deshalb ist es wichtig, zu kontrollieren, wer auf welche Daten zugreifen kann. Eine einfache Lösung dafür stellen Metadaten dar. Ein Beispiel wären die in einer Anwendung gespeicherten Gehaltsdaten von Mitarbeitern, auf die lediglich die Personalabteilung Zugriff haben soll. Mithilfe eines entsprechenden Metadaten-Feldes lässt sich der Zugriff kontrollieren.
  3. Business Intelligence: Häufig spielen bei Business Intelligence nur die eigentlichen Daten eine Rolle. Metadaten ermöglichen es in dem Kontext jedoch, Muster zu erkennen und entsprechende Empfehlungen auszusprechen: In einem Fertigungsbetrieb liefern einfache Metadaten wie Datums- und Zeitstempel beispielsweise nützliche Informationen darüber, welche Maschinen sich im Leerlauf befinden, längere Ausfallzeiten aufweisen oder zur Wartung anstehen. Diese Informationen tragen dazu bei, das Produktionsvolumen auf ein Maximum zu steigern.
  4. Datenschutz: Bereits 2016 trat die Datenschutz-Grundverordnung (DSGVO) in Kraft. Darin ist festgelegt, dass Unternehmen die Privatsphäre ihrer Kunden schützen und offenlegen müssen, wie sie diese Daten speichern und verwenden. Ein wichtiger Schritt, um die DSGVO einzuhalten, ist die Erstellung einer Datentaxonomie. Eben diese Taxonomie besteht aus Metadaten.

Nutzen Sie Metadaten mit dem Talend Data Catalog

Eine große Herausforderung für Unternehmen besteht darin, der Verwaltung von Metadaten Priorität einzuräumen. Denn im Geschäftsalltag geht sie zwischen anderen Big-Data-Initiativen schnell unter. Da die Abhängigkeit von Metadaten jedoch täglich wächst, gilt es, über eine Strategie für deren Erfassung, Speicherung und Pflege zu verfügen. Ansatzpunkte, um das Potenzial von Metadaten ausschöpfen zu können, sind unter anderem:

  • ein gesteigertes Bewusstsein für Metadaten
  • die Sicherstellung der Datenqualität
  • die Definition und Zuweisung von Verantwortlichkeiten
  • die Investition in Systeme, die Raum für die Verwaltung von Metadaten bieten

Mit dem richtigen Metadaten-Tool zum Erfolg

Als Beispiel für ein Unternehmen, das die Bedeutung von Metadaten erkannt hat und sie für sich nutzt, ist Air France-KLM. Mit dem klaren Ziel vor Augen, trotz rund 90 Millionen Passagieren pro Jahr die Nummer eins in puncto Kundenservice zu sein, brauchte das Unternehmen eine klare Metadatenstruktur. Durch die effektive Organisation von Kundendaten aus Reisesuchen, Buchungen, sozialen Medien, Interaktionen in der Flughafenlounge und mehr konnte die Fluggesellschaft eine 360-Grad-Ansicht jedes Kunden erstellen. So ist Air France in der Lage, individuelle Empfehlungen auszusprechen und jedem einzelnen Kunden einen einzigartigen Service zu bieten.

Data Catalog: Das Metadaten-Tool von Talend für Ihr Unternehmen

Um wettbewerbsfähig zu bleiben und obendrein den Anforderungen an Datenschutz und Sicherheit in der Cloud gerecht werden zu können, brauchen Unternehmen zweierlei:

  • ein nuanciertes und sensibles Konzept für den Umgang mit Metadaten
  • ein umfassendes Data-Governance-Programm

Data Catalog ist ein leistungsfähiges, zentralisiertes Tool, das alle Metadaten verschiedener Plattformen, Datenbanken und Analysetools miteinander verbindet.

Sind Sie bereit, mit Talend durchzustarten?