Data Munging mit Python: erste Schritte

Data Munging zielt darauf ab, Daten für moderne Analyseprozesse und Verbraucher aufzubereiten. Dies bietet sich beispielsweise an, wenn eine umfangreiche Tabelle mit Transaktionen und nicht vorhandenen Trennzeichen vorliegt. Mithilfe von Data Munging lässt sie sich in ein Format verwandeln, das sich für die Analyse komplexer Daten eignet. Auch in folgenden Fällen lohnt sich der Einsatz von Data Munging, wenn die Dokumente sich irgendwo in der Cloud befinden:

  • Webseiten
  • Dutzende von E-Mails
  • eine Textdatei mit unzähligen Fehlerprotokollen
  • eine Sammlung unstrukturierter Dokumente

Was ist Data Munging?

Data Munging beschreibt die Umwandlung von Rohdaten in bestimmte Formate, die sich besser für die Nutzung durch nachgelagerte Systeme und Anwender eignen. Der Begriff „Mung“ entstand in den späten 60er Jahren und war zunächst ein abfälliger Begriff für Aktionen, die den Datensatz schrittweise verschlechtern. Daher verbanden Datenanalysten den Begriff schnell mit dem Backronym „Mash Until No Good“ (oder, rekursiv, „Mung Until No Good“).

Doch mit der zunehmenden Expertise und Spezialisierung von Datenexperten entwickelten sich Munging und Wrangling  zu nützlichen Oberbegriffen, die Software-Ingenieure inzwischen analog zum Coding verwenden.

Mit dem Aufkommen von Cloud-Computing und der Cloud-Speicherung sowie ausgefeilter Datenanaylsetechniken entwickelten sich diese Begriffe weiter. Heute beziehen sie sich vor allem auf die Sammlung, Aufbereitung und Verfeinerung von Rohdaten.

Data Munging: der Prozess

Aufgrund der großen Vielfalt an Anwendungsfällen, Benutzertypen und Systemen kann der Data-Munging-Prozess ganz unterschiedlich ablaufen. In der Regel besteht der Prozess aus den folgenden fünf Schritten:

1. Datenexploration

Data Munging beginnt immer mit der Datenerhebung. Unabhängig davon, ob ein Analyst bei der initialen Datenanalyse (IDA) lediglich einen Blick auf die neuen Daten wirft – oder ein Datenwissenschaftler bei der explorativen Datenanalyse (EDA) nach neuen Zusammenhängen in bereits vorhandenen Datensätzen sucht.

2. Datentransformation

Nachdem die Datenexperten ein Gefühl für den Inhalt und die Struktur der Rohdaten gewonnen haben, müssen sie diese Rohdaten für die Weiterverarbeitung in geeignete Formate umwandeln. Dieser Schritt umfasst u. a.:

  • die reine Umstrukturierung von Daten, wie zum Beispiel das Entschachteln von JSON-Daten
  • das Denormalisieren verstreuter Tabellen, sodass relevante Informationen abgerufen werden können
  • das Umformen und Aggregieren von Zeitreihendaten

3. Datenanreicherung

Sobald die Daten für die Nutzung bereitstehen, können Datenanalysten optionale Schritte zu ihrer Anreicherung durchführen. Dabei suchen sie u. a. nach externen Informationsquellen, um den Umfang oder Inhalt der vorhandenen Datensätze zu erweitern: zum Beispiel durch die Verwendung eines Open-Source-Wetterdatensatzes, um die täglichen Temperaturen mit den Verkaufszahlen einer Eisdiele zu verbinden.

4. Datenvalidierung

Der letzte und wichtigste Schritt ist die Validierung der Daten. Ab diesem Punkt stehen die Daten zur Verwendung bereit. Wer den verarbeiteten Daten vertrauen möchte, sollte einige Checks vornehmen. So lassen sich Tippfehler, falsche Zuordnungen, Probleme bei den Transformationsschritten oder gar eine Verfälschung durch Rechenfehler identifizieren.

Data Munging mit Python

Bei der Wahl der Data-Munging-Tools und -Softwares haben Datenexperten und Analysten eine Vielzahl an Optionen.

Die grundlegendsten Vorgänge lassen sich mit simplen Tools wie Excel oder Tableau durchführen Dazu gehört:

  • die Suche nach Tippfehlern
  • die Verwendung von Pivot-Tabellen
  • gelegentlichen Visualisierung von Informationen
  • einee einfache Makro.

Für ein regelmäßiges Data Munging ist eine flexible, leistungsfähige Programmiersprache aber weitaus effektiver.

Python gilt als die anpassungsfähigste Programmiersprache und eignet sich somit auch für Data Munging. Dank der großen Sammlung an umfangreichen Datenverarbeitungswerkzeugen, wie Pandas, NumPy und SciPy, erleichtert Python viele komplexe Aufgaben. Pandas ist beispielsweise eine der am schnellsten wachsenden Datenverarbeitungsbibliotheken, obwohl sie nur einen kleinen Teil des riesigen Pythonsystems darstellt.

Python ist einfacher zu erlernen als viele andere Programmiersprachen, weil sie eine intuitive Formatierung sowie eine an die englische Sprache angelehnte Syntax aufweist.  Die Programmiersprache Python bietet viele Vorteile, zum Beispiel:

  • eine breite Anwendbarkeit
  • umfangreiche Bibliotheken
  • gut ausgestatteten Onlinesupports

Daher eignet sich die Programmsprache nicht nur für die konkreten Anwendungsfälle in der Datenverarbeitung.

Die Zukunft des Data Mungings

Cloud-Computing und Cloud-Data-Warehouses haben dafür gesorgt, dass Daten für Unternehmen immer wichtiger werden. Der Begriff „Data Munging" ist heute nur dank der wachsenden Bedeutung von schnellen, flexiblen und zugleich sorgfältig verwalteten Daten relevant.

Konzepte wie der Data Lake und NoSQL-Technologien förderten die Verbreitung und den Nutzen von Self-Service-Daten. Da einzelne Anwender von überall aus auf Rohdaten zugreifen können, sind sie zunehmend darauf angewiesen, diese Daten effektiv umzuwandeln und zu analysieren. Die Anwender müssen wissen, wie sie all diese Daten selbst bereinigen und verifizieren können. Aus diesem Grund ist das Konzept von „Data Munging“ essenziell.

Erste Schritte mit Talend Data Fabric

Data Munging beschreibt die Umwandlung von umständlichen Rohdaten in nützliche und anwendungsspezifische Formen. Dank Data Munging stehen Daten für jede Art von nachgelagerter Nutzung bereit – sei es durch automatisierte Systeme oder spezialisierte Anwender

Leistungsstarke und vielseitige Werkzeuge, wie Python, erleichtern Data-Munging-Prozesse. Talend Data Fabric übernimmt als Teil des Python-Daten-Ökosystems den größten Teil des Mungings für Sie, indem es gut verwaltete Daten sammelt, transformiert und weitergibt – und all das über eine einzige Anwendungssuite. Testen Sie Talend Data Fabric noch heute, um mit der Aufbereitung Ihrer Daten zu beginnen.

Sind Sie bereit, mit Talend durchzustarten?