Das Einmaleins der prädiktiven Analyse: Ein Leitfaden für Einsteiger

Stellen Sie sich Folgendes vor: Sie sind im Begriff, den Führungskräften Ihres Unternehmens Ihr neuestes Datenanalyseprojekt vorzustellen. Ihr Datensatz bietet Potenzial, um neue Marketingkampagnen zu beeinflussen, Ausschreibungsmaterialien zu entwickeln und den Umsatz spürbar anzukurbeln. Die Daten sind in der Cloud gespeichert und daher leicht zugänglich und interpretierbar. Sie verfügen sogar über ein Dashboard mit Visualisierungen, die die immense Leistungsfähigkeit des Datensatzes perfekt veranschaulichen. Mit diesem Projekt werden Sie richtig abräumen.

Fünf Minuten nach Beginn Ihrer Präsentation unterbricht Sie jedoch ein Mitarbeiter: „Wie werden sich diese Daten in Zukunft verändern?“ Und bevor Sie antworten können, stellt eine weitere Führungskraft folgende Frage: „Woher wissen wir eigentlich, dass dieses Dashboard uns wirklich alle notwendigen Informationen vermittelt?“

Verblüfft halten Sie inne und denken nach. Die Daten, die Sie den Managern zeigen, sind korrekt – Ihr QA-Team war monatelang eingehend mit Tests beschäftigt. Und doch: Können Sie wirklich sagen, ob und wie sich diese Daten ändern werden? Denn der Datensatz und das Dashboard geben nur eine Momentaufnahme wieder. Schließlich kann niemand die Zukunft vorhersagen.

Aber angenommen, wir könnten dies zumindest annähernd tun? Moderne Marken brauchen mehr als nur zeitpunktbezogene Berichte. Sie müssen zukünftige Risiken abfedern, Umsatz und Kundenzufriedenheit steigern und ihre Prozesse optimieren. Zu diesem Zweck setzen Unternehmen aus zahlreichen Branchen heutzutage die prädiktive Analyse ein. Doch wer die Leistungsfähigkeit dieser Technologie nutzen will, muss ihre aktuellen Anwendungen, ihre Überschneidungen mit der Cloud und ihre wissenschaftlichen Grundlagen verstehen.

Was ist prädiktive Analyse?

Bei der prädiktiven Analyse werden Verlaufsdaten aggregiert und analysiert, um künftige Ergebnisse zu antizipieren. Durch Aggregieren mehrerer Datensätze werden verschiedene Abteilungen, Geschäftsprozesse und (strukturierte oder unstrukturierte) Datentypen miteinander verbunden.

Allerdings lässt die bloße Zusammenführung verschiedener Datenpunkte noch nicht unbedingt Rückschlüsse auf künftiges Verhalten zu. Daher macht sich die prädiktive Analyse statistische Verfahren wie Datenmodellierung, Machine Learning und sogar künstliche Intelligenz zur Erkennung von Mustern in Big Data zunutze.

Diese Muster können zwar nicht genau vorhersagen, was in der Zukunft passieren wird, aber mithilfe der prädiktiven Analyse lassen sich Trends erkennen, disruptive Veränderungen in der Branche vorhersehen und eine stärker datengesteuerte Entscheidungsfindung umsetzen.

Praktische Anwendungen der prädiktiven Analyse

Jeder Bereich, in dem Daten erfasst werden, ist für prädiktive Analysen geeignet. Die Anwendungsmöglichkeiten sind schier grenzenlos: Die Bandbreite erstreckt sich von Optimierungen in der Cybersicherheit über die Entwicklung zielgruppenorientierten Marketings bis hin zu Verbesserungen in der Versicherungsstatistik.

Prädiktive Analysen im Gesundheitswesen

Das Gesundheitswesen ist ein primärer Anwendungsfall für prädiktive Analysen. Ein wesentliches Problem im Gesundheitswesen ist die Schwierigkeit, Patientenrisiken zu prognostizieren. Versicherungsstatistiker müssen Tarife mit optimalen Prämien ermitteln und Erstattungsanträge für Mitglieder formulieren, die unter verschiedenen gesundheitlichen Problemen leiden.

Daher gehörten Krankenversicherungen auch zu den ersten Unternehmen, die die Nutzung von Big Data implementierten. Mithilfe prädiktiver Analysen ermitteln Versicherungsstatistiker beispielsweise die Neigung eines Patienten zu einer Zustandsverschlechterung oder die Wahrscheinlichkeit der Teilnahme an erstattungsfähigen Aktivitäten, die das Wohlbefinden steigern.

Mithilfe prädiktiver Analysen können Versicherer Risikomuster bei Patienten ähnlichen Alters, mit ähnlichen Erkrankungen und ähnlichen sozialen Faktoren zu untersuchen. Auf Grundlage dieser Informationen können Versicherungsunternehmen fundierte finanzielle und ethische Entscheidungen treffen.

Prädiktive Analysen im Finanzwesen

Die Kreditvergabe – eine Schlüsselfunktion der Finanzdienstleistungsbranche – wurde durch die prädiktive Analyse revolutioniert. Bevor eine Bank einen Kredit vergibt, will sie sich vergewissern, dass der betreffende Kunde vertrauenswürdig ist. Am Ende möchte sie ihr Geld schließlich zurückhaben. Wie also schätzen Kreditinstitute dieses Vertrauen ein?

Bis vor wenigen Jahren beurteilten Banken ihre Antragsteller auf Grundlage des früheren Zahlverhaltens und eigener Vermutungen. Sie prüften die Vorgeschichte des Antragstellers und das Verhältnis von Schulden zu Einkommen und ermittelten darauf basierend einen komplizierten Zinssatz. Aufgrund von Änderungen in der Finanzgesetzgebung mussten die Banken jedoch eine statistisch aussagekräftigere Methode für die Kreditvergabe entwickeln.

Als dann Modelle für die prädiktive Analyse von externen Anbietern wie VantageScore und FICO Score verfügbar wurden, erlebte die Kreditwirtschaft eine Revolution. Mithilfe dieser Modelle können Kreditgeber seitdem maßgeschneiderte Zinssätze auf Risikobasis berechnen und subjektive Verzerrungen begrenzen. Die Modelle von VantageScore und FICO Score stützen sich dabei nicht auf einige wenige veraltete Kennzahlen, sondern auf das Zahlungsgebaren von Millionen Kreditnehmern mit ähnlichem Ausgabeverhalten.

Prädiktive Analysen in der Praxis

Hypothetische Anwendungsfälle sind zwar interessant, aber wie sieht es mit praktischen Anwendungen prädiktiver Analysen aus?

Dem Kunden dort begegnen, wo er einkauft

Tape à l'œil, ein Handelsunternehmen für Kinderkleidung und Accessoires, betreibt über 250 Filialen in Frankreich, 25 in Belgien und 11 in Polen und kann außerdem auf ein Netzwerk von Partnern im Nahen Osten, in Nordafrika und in Übersee zurückgreifen. Guillaume Porquier, Information Systems Director bei Tape à l'œil, beschreibt die zentrale Bedeutung prädiktiver Analysen: „Wenn ein Produkt zum Zeitpunkt X nicht vor Ort verfügbar ist, scheitert der Kauf. Dann besteht das Risiko, dass der Kunde bei einem anderen Händler kauft und unser Produkt am Ende der Saison günstiger angeboten werden muss.“

Interne und externe Daten geben den Niederlassungen Aufschluss über das Kundenverhalten und die Kaufgewohnheiten. Diese Informationen können dann in prädiktive Analysemodelle einbezogen werden. Unter Verwendung der online erhobenen Daten kann das Unternehmen außerdem seine Kundenmarketingdaten mit Customer-Journey- und prädiktiven Analysen erweitern.

Das Unternehmen ist heute in der Lage, digitale Daten auf Händlerwebsites in Europa zu erfassen und darauf basierend KPIs an das Managementteam zu senden. Zudem wird mithilfe von Umfragen das Kundenfeedback aus verschiedenen Blickwinkeln erfasst, z. B. zur Kundenzufriedenheit. Nicht zuletzt kann das Unternehmen Kampagnenergebnisse aus Facebook und Instagram abrufen und mit dem Data Lake abgleichen, sodass all diese Informationen zur Verfügung stehen, um den Datenbedarf der verschiedenen Teams zu decken.

Benutzer mit den passenden Empfehlungen begeistern

Lenovo, ein Technologieunternehmen, das PCs und Smartphones herstellt, bedient Kunden in mehr als 160 Ländern. Das Unternehmen musste erkennen, dass es nicht ausreicht, innovative Produkte anzubieten, um sich in einer hart umkämpften Branche zu behaupten. Vielmehr musste es neue Produktkategorien kreieren, um das Kundenerlebnis zu bereichern.

Zur Steigerung der eigenen Effektivität hat sich Lenovo das Ziel gesetzt, die Kundenbedürfnisse anhand von Daten zu ermitteln, die Erwartungen, Verhalten und Vorlieben der Kunden beschreiben. Zu diesem Zweck entwickelte das Unternehmen eine kanalübergreifende und echtzeitfähige prädiktive Analyse, die die Erfassung von Daten an einer Vielzahl von Touchpoints erforderte. Mit diesem Modell konnte Lenovo das Kundenerlebnis verbessern und den Umsatz pro Gewerbeeinheit um 11 % steigern.

Entwicklung einer 360-Grad-Sicht auf den Kunden

Als eine der weltweit führenden Fluggesellschaften konzentriert sich Air France–KLM auf die Geschäftsbereiche Personenbeförderung, Frachttransporte und Flugzeugwartung. Mit 90 Mio. Kunden pro Jahr und 2,5 Mio. Website-Besuchern im Monat hat das Datenmanagement bei Air France-KLM höchste Priorität. Dabei besteht das Ziel darin, eine hohe Kundenzufriedenheit aufrechtzuerhalten.

Auf der Grundlage der vorhandenen Daten hat Air France-KLM einen Customer 360°-Ansatz entwickelt, der auf prädiktiven Analysen fußt. Von der Bereitstellung einer vollständigen Kundenhistorie für die Callcenter-Mitarbeiter über das gezielte Versenden von Werbeangeboten bis hin zur Einführung von Bots im Kundenservice hat das Unternehmen durch die Vorwegnahme von Bedürfnissen außergewöhnliche Kundenerlebnisse geschaffen. Air France-KLM ging sogar so weit, die gravierendsten Stressfaktoren ihrer Kunden zu ermitteln und daraus einen proaktiven Aktionsplan zu erstellen, um mögliche Probleme bereits aus dem Weg zu räumen, bevor sie überhaupt entstehen.

So funktionieren prädiktive Analysen

Auf den ersten Blick wirken prädiktive Analysen wie Zauberei, aber im Grunde genommen handelt es sich um nichts anderes als angewandte Statistik. Im Kern geht es beim Erstellen prädiktiver Modelle darum, das Vorhandensein bestimmter Variablen in einem riesigen Datensatz mit einer bestimmten Gewichtung oder Wertung zu versehen. Anhand dieser Wertung wird dann die Wahrscheinlichkeit berechnet, mit der ein bestimmtes Ereignis in der Zukunft eintritt.

In der prädiktiven Analytik werden hauptsächlich zwei statistische Modellierungsansätze verwendet: Klassifizierungsmodelle und Regressionsmodelle.

Klassifizierungsmodelle

Klassifizierungsmodelle sind in der Regel binär. So könnte zum Beispiel ein Versicherungsunternehmen daran interessiert sein, Mitglieder aufzunehmen. Ein Klassifizierungsmodell gibt Aufschluss darüber, ob ein Mitglied in einem bestimmten Zeitraum auf der Grundlage bestimmter Kriterien entweder Kunde bleiben oder sich abmelden wird.

Regressionsmodelle

Regressionsmodelle sind weniger rigoros. Statt einer 0 oder 1 geben sie einen echten numerischen Wert aus. Betrachten wir ein Beispiel aus dem Gesundheitswesen: Angenommen, ein Mitglied habe einen BMI von 29. Ein Regressionsmodell könnte vorhersagen, dass der BMI des Mitglieds bei konsequent gesunder Ernährung im kommenden Jahr um 3 Punkte sinken könnte.

3 Techniken für prädiktive Analysen: Entscheidungsbäume, Regression und neuronale Netze

Es gibt verschiedene Techniken, die Data Scientists zur Erstellung von Klassifizierungs- und Regressionsmodellen verwenden. Namentlich sind dies Entscheidungsbäume, Regression und neuronale Netze.

  1. Entscheidungsbäume stellen einen Pfad von Wahlmöglichkeiten optisch dar. Jeder Zweig des Entscheidungsbaums ist eine mögliche Entscheidung zwischen mindestens zwei Optionen, während jedes Blatt eine Klassifizierung (ja oder nein) darstellt. Entscheidungsbäume sind zur Modellierung sehr attraktiv, da fehlende Werte sie nicht aus dem Tritt bringen und sie überdies leicht verständlich sind.
  2. Regression ist ein weiteres beliebtes Modellierungswerkzeug. Wie bereits erwähnt, wird sie bei stetigen (d. h. nicht-binären) Daten eingesetzt. Verschiedene Datenfragen erfordern unterschiedliche Anwendungen der Regression. So wird beispielsweise die lineare Regression verwendet, wenn nur eine einzige unabhängige Variable mit einem Ergebnis in Verbindung gebracht werden kann; wirken sich dagegen mehrere unabhängige Variablen auf ein Ergebnis aus, dann ist die multiple Regression am besten geeignet. Die logistische Regression ist eine noch komplexere Regressionsform, die nicht den gleichen Konventionen wie die lineare und multiple Regression folgt. Im Gegensatz zu den beiden anderen Regressionsmodellen wird die logistische Regression verwendet, wenn die abhängige Variable binär ist. Mit einer logistischen Regression könnte beispielsweise untersucht werden, wie sich die Wahrscheinlichkeit, dass ein Patient einen Herzinfarkt erleidet (binäre Variable), mit jedem zusätzlichen BMI-Punkt (stetige Variable) verändert.
  3. Neuronale Netze sind die letzte und komplizierteste Technik. Diese Methode wird immer gefragter, da perfekt lineare Beziehungen in der Natur selten vorkommen. Neuronale Netze ermöglichen eine Erkennung auch komplexerer Muster durch den Einsatz künstlicher Intelligenz.

Zwar sind diese statistischen Methoden nicht neu, doch werden sie immer mehr akzeptiert und stärker eingesetzt. Dies kann auf die zunehmende Beliebtheit der Cloud zurückgeführt werden.

Big Data, die Cloud und die Zukunft der prädiktiven Analyse

Bevor es die Cloud gab, schienen prädiktive Analysen unmöglich. Computer verfügten schlicht nicht über die Kapazität, petabyteweise Daten zu speichern, geschweige denn über genügend Rechenleistung, um verschlungene Datenmodelle auszuführen. Die Cloud dagegen bietet Unternehmen heute die Möglichkeit, mehrere große Datensätze zu kompilieren und zu kombinieren und ihre Modelle einfach zu skalieren.

Es gibt viele neue Produkte auf Cloud-Basis für prädiktive Analysen. Zukünftig wird die Cloud es Unternehmen ermöglichen, auch eigene Machine-Learning-Modelle zu erstellen. Die Cloud bringt dem Computer bei, Muster in Daten zu erkennen. So macht sie manuelle Arbeit überflüssig und ermöglicht eine bessere Interpretation und Extrapolation.

Darüber hinaus ermöglicht die Cloud eine bessere Anpassung und bietet mehr Flexibilität. Mit dem Aufkommen des Internets der Dinge (IoT) in der Cloud könnten Tools für prädiktive Analyse die täglichen Gewohnheiten der Menschen noch detaillierter bewerten.

Moderne Tools und Software für die prädiktive Analyse

Da Unternehmen heute in der Lage sind, große Datensätze aus der Cloud abzurufen, ist das Potenzial für Big-Data-Analysen enorm. Daher gibt es auf dem Markt eine große Anzahl an Cloud-basierten Software-Optionen für die prädiktive Analyse. Zwar ist ein Expertenteam für die Interpretation von Datenmodellen unverzichtbar, andererseits jedoch geht es, wenn man die Erfassung, Bereinigung und Analyse der Daten auf ein realistisches Maß verkürzen möchte, nicht ohne Software. Software für die prädiktive Analyse kann sowohl gespeicherte als auch Echtzeitdaten verarbeiten und bei der erforderlichen Formatierung helfen.

Darüber hinaus lässt sich Cloud-basierte Software für prädiktive Analysen in der Regel gut in ERP-Systeme, digitale Analysesoftware und Business-Intelligence-Plattformen integrieren, wie sie in den meisten Unternehmen bereits eingesetzt werden. Business-Intelligence-Teams können derartige Software außerdem verwenden, um den durch prädiktive Analysen entstehenden Mehrwert in visueller Form mithilfe von Dashboards zu veranschaulichen.

Talend ist ein Beispiel für eine Big-Data-Software, die universell einsetzbar ist. Da Talend eine Open-Source-Integrationsplattform ist, erweist sie sich als extrem vielseitig und unterstützt die Nutzer bei DatenaufbereitungDatenverwaltung und Cloud-Integration. Ausgereifte Unternehmen werden eigene Praktiken für die prädiktive Analyse entwickeln, wobei ihre erste Aufgabe immer darin bestehen wird, die eigenen Daten in die Cloud zu migrieren.

Bereit für den Einstieg? Testen Sie Talend Data Fabric und gehen Sie die Transformation Ihrer Unternehmensdaten jetzt an.

Sind Sie bereit, mit Talend durchzustarten?