Strukturierte vs. unstrukturierte Daten: ein Leitfaden

Daten sind das Lebenselixier von Unternehmen und haben viele unterschiedliche Formate. Die Palette reicht von stringent entwickelten relationalen Datenbanken bis hin zum letzten Post auf Facebook. Alle diese Daten in allen unterschiedlichen Formaten lassen sich in eine von zwei Kategorien einteilen: strukturierte und unstrukturierte Daten.

Wer, was, wann, wo und wie – diese Fragen helfen, den Unterschied zwischen strukturierten und unstrukturierten Daten zu verstehen:

  1. Wer wird die Daten verwenden?
  2. Welche Art von Daten erfassen Sie?
  3. Wann müssen die Daten aufbereitet werden: vor dem Speichern oder wenn sie verwendet werden?
  4. Wo werden die Daten gespeichert?
  5. Wie werden die Daten gespeichert?

Diese fünf Fragen beleuchten die Grundlagen strukturierter und unstrukturierter Daten und helfen dem einfachen Anwender, zu verstehen, inwiefern sich die beiden Arten von Daten unterschieden. Sie helfen Anwendern auch Nuancen wie halbstrukturierte Daten zu verstehen und können uns im Umgang mit Daten in der Cloud auch in Zukunft den Weg weisen.

Was sind strukturierte Daten?

Strukturierte Daten sind Daten, die in einem vorgegebenen Format strukturiert wurden, bevor man sie im Datenspeicher abgelegt hat. Das wird häufig auch als Schema-on-Write bezeichnet. Das beste Beispiel für strukturierte Daten ist die relationale Datenbank: Die Daten werden in präzise Felder etwa Kreditkartennummer oder Adresse formatiert, damit sie anschließend leicht mit SQL abgefragt werden können.

Vorteile strukturierter Daten

Strukturierte Daten haben drei wesentliche Vorteile:

  1. Für Machine-Learning-Algorithmen einfach nutzbar: Der größte Vorteil strukturierter Daten besteht darin, dass sie ganz einfach von maschinellem Lernen verwendet werden können. Da strukturierte Daten organisiert sind, können sie leicht bearbeitet und abgefragt werden.
  2. Für Geschäftsanwender einfach nutzbar: Ein weiterer Vorteil von strukturierten Daten ist, dass ein durchschnittlicher Geschäftsanwender, der sich mit dem Thema auskennt, auf das sich die Daten beziehen, diese auch nutzen kann. Man braucht kein tiefgreifendes Verständnis der verschiedenen Arten von Daten oder der Zusammenhänge der Daten. Das ermöglicht Geschäftsanwendern den Selfservice-Zugriff.
  3. Besserer Zugriff auf mehr Tools: Strukturierte Daten haben außerdem den Vorteil, dass sie schon viel länger verwendet werden, da sie in der Vergangenheit die einzige Option darstellten. Das bedeutet: Es wurden bereits mehr Tools für die Verwendung und Analyse strukturierter Daten erprobt und getestet. Datenmanager können aus einer größeren Produktpalette auswählen, wenn sie mit strukturierten Daten arbeiten.

Nachteile strukturierter Daten

Die Nachteile strukturierter Daten hängen in erster Linie mit dem Mangel an Flexibilität zusammen. Hier einige potenzielle Nachteile strukturierter Daten:

  1. Ein vordefinierter Zweck schränkt die Verwendungsmöglichkeiten ein: Die Definition von Daten im Schema-on-Write ist einer der größten Vorteile strukturierter Daten. Es stimmt aber auch, dass Daten mit einer vordefinierten Struktur nur für den vorgesehenen Zweck verwendet werden können. Das schränkt die Flexibilität und die Anwendungsmöglichkeiten ein.
  2. Begrenzte Speicheroptionen: Strukturierte Daten werden in der Regel in Data-Warehouses gespeichert. Data Warehouses sind Datenspeichersysteme, die starren Schemata folgen. Jede Anforderungsänderung bedeutet: Alle strukturierten Daten müssen aktualisiert werden, damit sie den neuen Anforderungen entsprechen. Das kostet Zeit und Ressourcen. Ein Teil der Kosten kann eingespart werden, indem man auf ein cloud-basiertes Data-Warehouse setzt, da das mit einer höheren Skalierbarkeit einhergeht und Wartungskosten, die durch den Betrieb von Geräten vor Ort entstehen, entfallen.

Beispiele für unstrukturierte Daten

Strukturierte Daten sind wie ein alter, vertrauter Freund. Sie bilden die Grundlage für Warenwirtschaftssysteme und Geldautomaten. Sie können von Mensch oder Maschine generiert werden.

Gängige Beispiele für maschinell erzeugte strukturierte Daten sind Weblog-Statistiken und Point-of-Sale-Daten wie etwa Barcodes und Stückzahlen. Jedem, der sich mit Daten beschäftigt, ist außerdem die Tabellenkalkulation geläufig: ein klassisches Beispiel für von Menschen generierte strukturierte Daten.

Was sind unstrukturierte Daten?

Unstrukturierte Daten sind Daten, die in einem nativen Format gespeichert und erst dann bearbeitet werden, wenn sie verwendet werden. Man spricht auch von Schema-on-Read. Diese Art von Daten liegt in zahlreichen Formaten vor, wie z. B. E-Mails, Social-Media-Posts, Präsentationen, Chats, Daten von IoT-Sensoren und Satellitenbilder.

Vorteile unstrukturierter Daten

Auch unstrukturierte Daten haben je nach Geschäftsanforderung Stärken und Schwächen. Zu den Vorteilen gehören:

  1. Freiheit des nativen Formats: Da unstrukturierte Daten in ihrem nativen Format gespeichert werden, werden die Daten erst definiert, wenn sie benötigt werden. Das führt zu einem größeren Pool an Anwendungsmöglichkeiten, weil der Zweck der Daten anpassbar ist. Data-Scientists müssen nur die Daten aufbereiten und analysieren, die benötigt werden. Die Speicherung im nativen Format ermöglicht auch eine größere Bandbreite an Dateiformaten in der Datenbank, weil nicht nur Daten in einem bestimmten Format gespeichert werden können. Für das Unternehmen bedeutet das, dass es mehr Daten hat, aus denen es schöpfen kann.
  2. Schnellere Datenanhäufung: Ein anderer Vorteil unstrukturierter Daten ist, dass Daten schneller angehäuft werden können. Da die Daten nicht vordefiniert werden müssen, können sie schnell und einfach erfasst werden.
  3. Data-Lake-Storage: Unstrukturierte Daten werden oft in Data Lakes in der Cloud gespeichert, die eine massive Speicherkapazität bieten. Cloud-Data-Lakes ermöglichen auch Pay-as-you-use-Preiskonzepte für die Speicherung. Das hilft, Kosten zu senken und einfach zu skalieren.

Nachteile unstrukturierter Daten

Die Nutzung unstrukturierter Daten geht jedoch auch mit Nachteilen einher. Um ihr volles Potenzial auszuschöpfen, braucht man ein gewisses Know-how und spezielle Tools.

  1. Data-Science-Know-how erforderlich: Der größte Nachteil unstrukturierter Daten ist, dass man Data-Science-Know-how braucht, um die Daten aufzubereiten und zu analysieren. Ein durchschnittlicher Geschäftsanwender kann unstrukturierte Daten nicht so verwenden, wie sie sind, weil sie undefiniert/nicht formatiert sind. Möchte man unstrukturierte Daten verwenden, muss man sich mit dem Thema oder Fachgebiet der Daten auskennen – und darüber hinaus wissen, wie man die Daten in einen Zusammenhang bringen kann, um sie zu nutzen.
  2. Spezielle Tools: Neben dem Know-how erfordern unstrukturierte Daten auch spezielle Bearbeitungs-Tools. Standardmäßige Daten-Tools sind für die Verwendung mit strukturierten Daten gedacht. Einem Datenmanager steht damit eine begrenzte Auswahl an Produkten für unstrukturierte Daten zu Verfügung, von denen einige noch in den Kinderschuhen stecken.

Beispiele für unstrukturierte Daten

Unstrukturierte Daten sind eher qualitativ als quantitativ, d. h. sie sind eher charakteristischer und kategorischer Natur.

Sie eigenen sich gut, um zu bestimmen, wie erfolgreich eine Marketingkampagne ist, oder um über Social Media und Bewertungs-Websites mögliche Kauftrends zu ermitteln. Sie können außerdem verwendet werden, um Muster in Chats oder verdächtige E-Mail-Trends zu entdecken. Das kann Unternehmen dabei helfen, die Einhaltung von Richtlinien zu überwachen, was sehr nützlich ist.

Strukturierte Daten vs. unstrukturierte Daten

Die Gegenüberstellung von strukturierten und unstrukturierten Daten zeigt Unterschiede im Hinblick auf folgende Punkte: Datentypen, die verwendet werden können; erforderliches Data-Science-Know-how und Schema-on-Write im Gegensatz zum Schema-on-Read.

Strukturierte Daten Unstrukturierte Daten
Wer Selfservice-Zugriff Data-Science-Know-how erforderlich
Was Nur ausgewählte Datentypen Viele verschiedene Datentypen
Wann Schema-on-Write Schema-on-Read
Wo Speicherung i. d. R. in Data-Warehouses Speicherung i. d. R. in Data Lakes
Wie Vordefiniertes Format Natives Format

Strukturierte Daten sind hochspezifisch und werden in einem vordefinierten Format gespeichert. Unstrukturierte Daten hingegen sind ein Sammelsurium vieler verschiedener Datentypen, die in ihren nativen Formaten gespeichert werden. Das bedeutet: Strukturierte Daten folgen dem Schema-on-Write und unstrukturierte Daten dem Schema-on-Read.

Strukturierte Daten werden in der Regel in Data-Warehouses gespeichert und unstrukturierte Daten in Data Lakes. Beide haben Cloud-Potenzial – mit dem Unterschied, dass strukturierte Daten weniger Speicherplatz benötigen als unstrukturierte.

Der letzte Unterschied hat möglicherweise die größten Auswirkungen. Strukturierte Daten können von durchschnittlichen Geschäftsanwendern genutzt werden, während im Fall von unstrukturierten Daten Data-Science-Know-how erforderlich ist, um auf präzise Business-Intelligence zugreifen zu können.

Was sind semistrukturierte Daten?

Semistrukturierte Daten würde man eigentlich als unstrukturiert betrachten – sie sind aber mit Metadaten versehen, die auf bestimmte Merkmale verweisen. Die Metadaten enthalten ausreichend Informationen, sodass eine effizientere Katalogisierung, Suche oder Analyse vorgenommen werden kann als bei komplett unstrukturierten Daten. Semistrukturierte Daten sind also eine Mischform. Sie sind weder strukturiert noch unstrukturiert.

Hier jeweils ein Beispiel: Bei einer tabulatorgetrennten Datei mit Kundendaten handelt es sich um semistrukturierte Daten; bei einer Datenbank mit CRM-Tabellen um strukturierte Daten. Semistrukturierte Daten sind stärker hierarchisch strukturiert als unstrukturierte Daten. Die Tab-getrennte Datei ist spezifischer als eine Liste mit Kommentaren aus dem Instagram-Account eines Kunden.

Wie sieht die Zukunft Ihrer Daten aus?

Unabhängig davon, ob sie sich dafür entscheiden, mit strukturierten oder unstrukturierten Daten zu arbeiten: Datenintegrität ist ein Muss, damit ihre Daten weiterhin eine Quelle der Wahrheit bleiben. Datenintegrität lässt sich am besten mit etablierten Data-Governance- und Data-Management-Verfahren herstellen.

Ein erfahrener Partner kann Ihnen helfen, die Qualität aller Ihrer Daten zu steigern. Talend Data Fabric bietet eine komplette Suite an Tools, die Nutzern ganz ohne Effizienzeinbußen helfen, die benötigten Daten zu erfassen, Datenintegrität sicherzustellen und für Qualität zu sorgen. Setzen Sie auf die richtigen Tools, um schon bald das volle Potenzial der Daten Ihrer Wahl auszuschöpfen. Testen Sie Talend Data Fabric noch heute.

Sind Sie bereit, mit Talend durchzustarten?