Maschinelles Lernen – Die Programmiertechnik der Zukunft

In der modernen Technik wird maschinelles Lernen immer wichtiger. Mit ihr lassen sich Schritt für Schritt Technologien und Prozesse entwickeln, die dem Menschen verblüffend ähnlich sind. Was genau Machine Learning ist, verschiedene Methoden und vieles mehr, erläutert dieser Beitrag.

Was ist maschinelles Lernen? - Definition

Maschinelles Lernen (eng. Machine Learning) hängt eng mit der sogenannten Künstlichen Intelligenz zusammen. Sie ist eine Programmierungstechnik, die Computern das „Lernen“ beibringt, ohne sie ausdrücklich dafür zu programmieren. Das geschieht mithilfe statistischer Methoden und Entwicklungsprogrammen, die sich je nach externem Input anpassen lassen. Ähnlich wie der Mensch kann der Computer seine Lernfähigkeit und sein Wissen im Laufe der Zeit eigenständig verbessern.

Das Ziel von Machine Learning ist es, aus Input-Daten sinnvolle Zusammenhänge zu erkennen und daraus Regeln abzuleiten. Der Algorithmus bringt dem Computer also bei, zu lernen und zu handeln. Damit lässt sich vieles automatisieren, wie z. B.:

  • Vorhersagen treffen
  • Trenderkennung
  • Klassifizierung von Daten
  • Optimierung sowie Anpassung von Marketingstrategien
  • Automatische Bildbearbeitung
  • Texterkennung (Text-to-Speech)
  • Künstliche Intelligenz (Alexa, Siri und Co.)

Die historische Entwicklung von Machine Learning

Eigentlich ist maschinelles Lernen nichts Neues. Bereits 1958 entwickelte der Psychologe Frank Rosenblatt das erste künstliche, neuronale Netzwerk. Der als „Perceptron“ bekannte Algorithmus (eigentlich als Maschine gedacht) diente als Grundlage für die Bilderkennungsmaschine „Mark 1 Perceptron“ (1960). Diese war der erste Computer, der KNNs nutzte, um menschliches Denken zu simulieren. Mit dem Ziel durch Versuch und Irrtum zu lernen.

Seit der billionenfachen Zunahme der Rechenleistung (1956-2015) und dem Aufkommen der Open-Source-Bibliothek sowie -Frameworks gehört maschinelles Lernen zur Standardtechnologie. Ob im Finanzhandel, personalisierten Marketingaktivitäten oder dem Malware-Schutz – mittlerweile kommt sie überall zum Einsatz.

Wie funktioniert maschinelles Learning?

Machine Learning folgt dem Prinzip des Gehirns. Durch das neuronale Netzwerk verarbeitet der Mensch in Sekunden eine Unmenge an Daten. Diese werden kombiniert mit Daten aus der bereits bestehenden Datenbank. Darauf basiert der Entscheidungs- sowie Lernprozess.

Beim maschinellen Lernen funktioniert das ähnlich. Es kommt vor allem darauf an, dem Computer Unmengen an Daten zur Verfügung zu stellen. Diese „Big Data“ bilden die Grundlage zum Lernen und Handeln.

Ein gutes Beispiel im Bereich des maschinellen Lernens sind selbstfahrende Autos. Diese verfügen über Kamera-, Radar- und Lidar-Sensorsysteme, die individuelle Daten zusammentragen. Das sieht etwa so aus:

  • GPS-Technik: Bestimmt den Standort des Wagens
  • Lidar-Sensorsysteme: Hält Ausschau nach Objekten um das Auto herum
  • Radar: Achtet auf die Straße

Ein zentraler Computer verarbeitet all diese Informationen. Er nimmt laufend eine enorme Menge an Daten auf. Ebenso wie der Mensch analysiert und klassifiziert der Computer diese.

Die daraus resultierende Datenbank nutzt er, um, auf Basis mathematischer Wahrscheinlichkeiten und Beobachtungen, Entscheidungen zu treffen. So weiß das Fahrzeug, wie es lenken und wann es bremsen oder beschleunigen muss.

Maschinelles Lernen: Welche Rolle spielen Wahrscheinlichkeiten?

Alle Formen des maschinellen Lernens beruhen auf Wahrscheinlichkeiten. Genauer gesagt auf der Bayes‘schen Interpretation der Wahrscheinlichkeit. Diese besagt: Dinge treten entweder ein oder nicht.

Das folgende Beispiel zeigt, wie eine Maschine lernt, ob die Sonne jeden Tag auf geht oder nicht.

  • Tag 1: Die Sonne geht entweder auf oder nicht. Die Wahrscheinlichkeit liegt bei 50 Prozent. Da nur zwei Ergebnisse möglich sind, besteht eine Wahrscheinlichkeit von eins zu zwei.
  • Tag 2: Da die Sonne am ersten Tag aufging, hat sich die Wahrscheinlichkeit geändert. Die Maschine weiß jetzt, dass die Sonne schon einmal aufgegangen ist. Dennoch könnte es passieren, dass sie jetzt nicht aufgeht. Die Wahrscheinlichkeit liegt bei 66 Prozent (zwei zu drei)
  • Tag 3 – 6: Die Sonne geht jeden Tag auf; die Wahrscheinlichkeit steigt.
  • Tag 7: Die Wahrscheinlichkeit, dass die Sonne am folgenden Tag aufgeht, liegt bei 85,7 Prozent
  • Ende des Jahres: Die Sonne ist jeden Tag aufgegangen. Die Wahrscheinlichkeit, dass sie auch am folgenden Tag aufgeht, liegt jetzt bei über 99 Prozent.

Wichtig: Die Wahrscheinlichkeit kann niemals bei einem bzw. 100 Prozent liegen. Es besteht immer eine winzige Chance, dass die Sonne am nächsten Tag nicht aufgeht. Mit der Zeit wird diese verschwindend klein. Dennoch bleibt sie.

Überwacht, unüberwacht & bestärkt – Das sind die 4 Methoden des Machine Learning

Machinelles Lernen findet in einer Vielzahl alltäglicher Geräte und Prozesse Anwendung. Dementsprechend kann der Algorithmus mehr oder minder komplex ausfallen. Unabhängig dieser Komplexität, lässt sich Machine Learning in drei Methoden unterteilen.

Überwachtes Lernen – Machine Learning mit strengen Regeln

Das überwachte maschinelle Lernen folgt grundlegenden und strengen Regeln. Hier erhält der Computer Beispiele von Inputs und gewünschten Outputs. Sein Ziel ist es nun, einen Weg zu finden, diese Outputs umzusetzen. Dafür muss er eine allgemeine Regel erlernen, die die Lücken zwischen Input und Output schließt.

Mithilfe des überwachten Lernens lassen sich Vorhersagen zu unbekannten oder künftigen Daten treffen. Eine Methode, die auch als prädiktive Modellierung bezeichnet wird.

Grundsätzlich versucht der Algorithmus eine vorhersagende Funktion zu entwickeln. Somit lassen sich Outputs anhand der Inputvariablen genau vorhersagen. Ein gutes Beispiel dafür ist der Marktwert eines Hauses. Der Wert (Output) wird auf Basis der Inputs, z. B. Quadratmeter, Bauweise, Baujahr, etc. vorhergesagt.

Überwachtes Lernen lässt sich in zwei Arten kategorisieren.

  1. Klassifikation – Der Output ist eine Kategorie, z. B. eine Gruppenzugehörigkeit
  2. Regression – Der Output ist ein realer Wert, z. B. der Marktwert des Hauses

Diese Outputs lassen sich mittels verschiedener Methoden vorhergesagen. Darunter finden sich unter anderem: Entscheidungsbäume, lineare Regression, das Naive-Bayes-Verfahren und viele andere.

Unüberwachtes Lernen – Maschinelles Lernen durch eigenständige Strukturen

Beim unüberwachten Lernen muss der Algorithmus eigenständig Strukturen im Input erkennen. Es gibt also keinen definierten Antwortschlüssel. Somit muss die Maschine Inputs anhand von Merkmalen und Mustern selbst analysieren. Daraus lassen sich dann Muster sowie Korrelationen vorhersagen. Als Datengrundlage dienen oft unbeschriftete und unstrukturierte Inputs.

Einerseits kann die Definition von Mustern in Daten bereits ein Ziel an sich sein. Andererseits kann es auch ein Mittel zum Zweck sein, z. B. beim Feature-Learning. Hier lernt die Maschine Darstellungen mittels Merkmale automatisch zu erkennen.

Ein gutes Beispiel des unüberwachten Lernens ist der prädiktive Gesichtserkennungsalgorithmus von Facebook. Er identifiziert Menschen auf Fotos anhand von Merkmalen und Mustern.

Unüberwachtes Lernen gibt es in zwei Arten:

  1. Clustering – Gruppierungen in Daten finden; neue Daten lassen sich dann zu den bestehenden Clustern zuordnen.
  2. Assoziation – Regeln in Daten finden, um große Gruppen von Daten durch Erfahrung zu definieren.

Zu den Algorithmen des unüberwachten Lernens gehören K-Means, hierarchische Clusteranalysen und Dimensionsreduktion.

Teilweise überwachtes Lernen – Daten aufwerten durch Machine Learning

Teilüberwachtes Lernen stellt den Hybrid zwischen un- und überwachtem Lernen dar. Oftmals findet es Anwendung, wenn Rohdaten nur teilweise strukturiert und beschriftet sind. Mithilfe einer kleinen Menge beschrifteter Daten kann die Maschine unstrukturierte Datenmengen aufwerten.

Die beschrifteten Daten fungieren als eine Art Starthilfe. Der Computer untersucht diese auf mögliche Muster und Korrelationen. Diese können dann auch bei den unbeschrifteten Daten Verwendung finden. Dank dieser Methode des maschinellen Lernens lässt sich die Lerngeschwindigkeit und Genauigkeit verbessern.

Bestärkendes Lernen – Maschinelles Lernen im dynamischen Umfeld

Beim bestärkenden Lernen interagiert ein Computerprogramm mit einer dynamischen Umgebung. Hier muss es eine bestimmte Aufgabe durchführen, wie z. B. ein Fahrzeug zu lenken oder Spiele gegen einen Gegner zu spielen. Das Programm erhält während der Lösung dieser Aufgabe Feedback zu guten und schlechten Aktionen. Mithilfe dieser Belohnungen und Strafen lernt es, die richtige Verhaltensweise im gegebenen Kontext zu bestimmen.

So ist es einem Algorithmus 2013 gelungen, sechs Atari-Videospiele für sich zu entscheiden. Ganz ohne einen Input durch einen Programmierer. Zur Verwendung kam dabei der Algorithmus „Q-Learning“.

Beim bestärkenden Lernen werden Belohnungen auf zwei Arten vergeben:

  1. Monte Carlo – Belohnungen werden am Ende vergeben.
  2. Temporal-Difference-Learning (TD-Learning) – Belohnungen werden nach jedem Schritt vergeben.

Zu den Algorithmen des bestärkenden Lernens gehören Q-Learning, Deep Q Network (DQN) und State-Action-Reward-State-Action (SARSA).

Machine-Learning-Algorithmen: Drei verschiedene Arten mit Beispielen

Ein Algorithmus umfasst eine Reihe vorgegebener Aktionen, die durchzuführen sind, um ein Problem zu lösen. Computer nutzen diese, um detaillierte Schritte zur Ausführung einer Aufgabe zu definieren. Im maschinellen Lernen repräsentieren sie den Gedankengang der Maschine.

Welcher Algorithmus sich am besten für eine Aufgabe eignet, hängt von der Komplexität sowie der Art des Problems ab. Hier einige Beispiele für Algorithmen des maschinellen Lernens.

Der Entscheidungsbaum-Algorithmus

Entscheidungsbäume finden in vielen Bereichen Anwendung, z. B. dem Einzelhandel oder Finanzsektor. Die Maschine erstellt einen Baum mit möglichen Ergebnissen, die eintreten können oder nicht Der Computer verfolgt jedes Ergebnis bis zum Schluss und zeichnet mögliche Auswirkungen auf.

Banken nutzen den Entscheidungsbaum-Algorithmus, um über Immobilien-Investments zu entscheiden. Arzneimittelersteller nutzen ihn bei Tests, um unter anderem die Wahrscheinlichkeit von Nebenwirkungen zu erforschen.

Der Random-Forest-Algorithmus

Auch Random Forest ist ein häufig genutzter Algorithmus. Hier erstellt die Maschine mehrere Classification & Regression Trees (CART). Diese verfügen über unterschiedliche Szenarien und Ausgangsvariablen. Der Algorithmus wählt eine zufällige Stichprobe aus und erstellt daraus ein prädiktives Modell. Er agiert auf der Basis von Klassifizierungen und Regression.

Als Beispiel: Es gibt eine Untersuchung mit 1.000 Beobachtungen auf zehn Variablen. Der Random-Forest-Algorithmus nimmt eine zufällige Probe von 100 Beobachtungen und fünf zufällige Ausgangsvariablen. Er erstellt ein CART-Modell und wiederholt diesen Vorgang immer wieder. Zum Schluss entsteht eine endgültige Vorhersage für jede Beobachtung.

Der K-Means-Algorithmus

K-Means ist ein unüberwachter Machine-Learning-Algorithmus. Er findet hauptsächlich für Clustering-Probleme Anwendung. Jede Iteration des Algorithmus ordnet jeden Datenpunkt einer Gruppe mit ähnlichen Merkmalen zu. So lassen sich ungekennzeichnete (ohne externe Klassifizierung) Daten klassifizieren und in Gruppen (Cluster) unterteilen. Somit kann die Maschine auch unbekannte Cluster identifizieren.

Darüber hinaus lassen sich Vermutungen über die Existenz von Gruppenarten in bestimmten Datensätzen bestätigen.

Unternehmen nutzen diesen Algorithmus oft, um den Bestand nach Verkaufszahlen zu gruppieren oder Anomalien innerhalb von Daten zu bestimmen.

Wie lässt sich maschinelles Lernen in Ihrem Unternehmen integrieren?

Weltweit und in fast jeder Branche steigt die Bedeutung von Machine Learning. Mithilfe von bestimmten Machine-Learning-Tools lässt es sich im Unternehmen einbauen. Da bleibt jedoch die Frage: Wofür ist maschinelles Lernen gut und wie lässt es sich in Unternehmen implementieren? Hier ein paar interessante Anwendungsbeispiele:

  • Maschinelles Lernen als Teil von Empfehlungsdiensten: empfiehlt automatisch passende Inhalte an die User.
  • Machine Learning für den Vertrieb: automatisierte Analyse von Leads und Kundendaten zur Vorbereitung der Akquise.
  • Maschinelles Lernen für dynamisches Marketing: hilft bei der Erstellung von individualisierten Marketinginhalten.
  • ERP- und Prozessautomatisierung durch Machine Learning: automatisierte Aufbereitung von Datenbanken zur Geschäftsanalyse.
  • Vorrausschauende Instandhaltung danke maschinellem Lernen: automatische Erfassung von Instandhaltungs- und Reparaturdaten, um potenzielle Probleme vorherzusagen und zu verhindern.

3 Vorteile durch die Integration von maschinellem Lernen in Ihrem Unternehmen

Mittlerweile implementieren immer mehr Unternehmen maschinelles Lernen. Mit der stetigen Entwicklung der Technologie bietet Machine Learning zunehmend mehr Vorteile. Abgesehen von der Automatisierung und den dadurch gesparten Ressourcen sind folgende Vorteile besonders interessant:

  1. Future-Proof: Machine Learning ist eine Technologie der Zukunft, die sich in den kommenden Jahren weiter entwickeln wird. Eine Investition heute legt den Grundstein für morgen.
  2. Effizienz: Dank der Automatisierung und Klassifizierung von großen Datenmengen, lässt sich Input effizienter analysieren. Somit verbessern sich viele interne, sowie externe Unternehmensprozesse.
  3. Fördert Konzentration: Maschinelles Lernen übernimmt repetitive Aufgaben. So bleibt mehr Zeit, sich auf wichtigere Dinge zu konzentrieren. Darüber hinaus bietet maschinelles Lernen noch viele weitere Vorteile für Ihr Unternehmen. Mit Talend als Partner profitieren Sie davon.

Talend: Ihr Partner für die nahtlose Implementierung von Machine Learning

Mit Talend haben Sie den besten Partner zur Integration von maschinellem Lernen auf Ihrer Seite. Wir unterstützen Ihr Unternehmen dabei, die Lücke zwischen operativen Teams, IT-Mitarbeitenden und Data-Scientists zu schließen. So können Sie wichtige Machine-Learning-Modelle nahtlos implementieren.

Unsere Plattform ist das erste Big-Data-Integrationssystem auf Basis von Hadoop und Apache Spark. Sie ermöglicht Ihnen, maschinelles Lernen ganz einfach per Drag-und-Drop-Entwicklerkomponenten, Wizards und grafischen Tools zu integrieren. So sind Sie in nur wenigen Minuten komplett startbereit.

Sie wollen mehr über maschinelles Lernen und die Vorteile für Ihr Unternehmen erfahren? Dann werfen Sie doch gerne einen Blick auf den Blogeintrag „How to Operationalize Machine Learning“ (So können Sie maschinelles Lernen in Ihrem Unternehmen nutzen).

Sind Sie bereit, mit Talend durchzustarten?