Talend stellt eine Entwicklungsumgebung bereit, die Ihnen das Interagieren mit zahlreichen Big Data-Quellen und -Zielen auch ohne das Erlernen und Schreiben von kompliziertem Code gestattet.

Dieser Kurs behandelt die Implementierung von Maschine Learning Algorithmen in Big Data Batch Jobs, unter Verwendung des Spark-Frameworks.

Dauer 1 Tag (7 Stunden)
Zielgruppe Alle, die Maschine Learning Algorithmen mit Talend Studio implementieren möchten
Voraussetzungen Abschluss des Grundkurses Talend Data Quality oder des Grundkurses Talend Big Data
Kursziele

Kursziele

Das lernen Sie in diesem Kurs:

  • Aus einem Talend-Job heraus eine Verbindung mit einem Hadoop-Cluster herstellen
  • Kontextvariablen und Metadaten verwenden
  • Big Data Batch Job zum lesen und schreiben von Dateien in HDFS
  • Big Data Batch Jobs für die Verwendung des Spark-Frameworks konfigurieren
  • Empfehlungsmodelle erstellen und testen
  • Klassifizierungsmodelle erstellen und testen
  • Daten mit Maschine Learning Algorithmen deduplizieren
Kursablauf

Kontext für maschinelles Lernen

  • Konzepte

Anwendungsfall SMS-Klassifizierung

  • Hadoop Cluster überwachen
  • Anwendungsfall „SMS-Klassifizierung erkunden“ – Entscheidungsbäume
  • Mit Ihrem Hadoop Cluster verbinden
  • SMS-Klassifizierungsmodell erstellen
  • SMS-Klassifizierungsmodell testen

Anwendungsfall Filmempfehlung

  • Anwendungsfall „Filmempfehlung erkunden“ – alternierende kleinste Quadrate
  • Filmempfehlungsmodell erstellen
  • Filmempfehlungsmodell testen

Anwendungsfall Schwertlilien-Klassifizierung

  • Anwendungsfall „Schwertlilien-Klassifizierung erkunden“ – Bayes-Klassifikator
  • Schwertlilien-Klassifizierungsmodell erstellen
  • Schwertlilien-Klassifizierungsmodell testen

Anwendungsfall Deduplizierung Kinderbetreuung

  • Anwendungsfall „Kinderbetreuung erkunden“ und Datensatzzuordnung
  • Umgebung einrichten
  • Bildung von Datenpaaren
  • Zuordnungsmodell erstellen
  • Zuordnungsmodell verwenden
  • Duplikatgruppen zusammenführen