Talend fournit un environnement de développement qui vous permettra d’interagir avec de nombreux stockages Big Data sources et cibles, sans avoir besoin de comprendre ou d’écrire de code complexe.

Cette formation traite de l’implémentation des algorithmes de machine learning (apprentissage automatique) dans les Jobs Big Data Batch avec le framework Spark.

Durée 1 jour (7 heures)
Public Développeur souhaitant utiliser le Studio Talend afin d'industrialiser les algorithmes de machine learning
Pré-requis Avoir suivi les formations Talend Data Quality Essentials ou Talend Big Data Basics
Objectifs

À l’issue de cette formation, vous pourrez :

  • Vous connecter à un cluster Hadoop depuis un Job Talend
  • Utiliser les variables de contexte et les métadonnées
  • Lire et écrire des fichiers dans HDFS dans un Job Big Data batch
  • Configurer un Job Big Data batch pour qu’il utilise le framework Spark
  • Créer et tester des modèles de recommandation
  • Créer et tester des modèles de classification
  • Utiliser un algorithme de machine learning pour dédoublonner des données
Plan du cours

Plan de la formation :

Introduction à Machine Learning

  • Concepts

Cas d’utilisation : classification de SMS

  • Découvrir le cas d’utilisation de classification des SMS et les arbres de décision
  • Créer un modèle de classification de SMS
  • Tester le modèle de classification de SMS

Cas d’utilisation : recommandations de films

  • Découvrir le cas d’utilisation du moteur de recommandation avec l’algorithme des moindres carrés alternés
  • Créer un modèle de recommandation de films
  • Tester le modèle de recommandation de films

Cas d’utilisation : classification des iris

  • Découvrir le cas d’utilisation de classification des iris avec l’algorithme de classification Naïve Bayes
  • Créer un modèle de classification d’iris
  • Tester le modèle de classification d’iris

Cas d’utilisation : Dédoublonnage de données sur un programme de garde d’enfants

  • Découvrir le cas d’utilisation de données de garde d’enfants et l’algorithme de recherche de rapprochement
  • Installer l’environnement
  • Appairer des données
  • Créer un modèle de rapprochement
  • Utiliser le modèle de rapprochement
  • Fusionner des groupes de doublons