Talend fournit un environnement de développement qui vous permettra d’interagir avec de nombreux stockages Big Data sources et cibles, sans avoir besoin de comprendre ou d’écrire de code complexe.

Cette formation traite des Jobs Big Data Batch qui utilisent le framework Spark.

Durée 1 jour (7 heures)
Public Toute personne souhaitant utiliser le Studio Talend pour interagir avec les systèmes Big Data.
Pré-requis Avoir suivi les formations Talend Big Data Basics
Objectifs

À l’issue de cette formation, vous pourrez :

  • Développer un Job Big Data Batch qui utilise le framework Spark
  • Exécuter des Jobs Spark en modes YARN Client et YARN Cluster
  • Activer la journalisation des événements du serveur d’historique Spark
  • Copier les données depuis un fichier local dans HDFS
  • Copier les données depuis MySQL dans HDFS
  • Créer une table Hive et y copier les données depuis HDFS
  • Importer des tweets dans HDFS
  • Faire une jointure, trier et agréger des données
  • Utiliser des caches pour accélérer le traitement
  • Faire une requête sur des données depuis une table Hive avec Hive QL
  • Faire une requête sur des données depuis des jeux de données Spark avec Spark SQL
Plan du cours

Plan de la formation :

Introduction à Spark

  • Concepts

Découverte de Spark

  • Développer et configurer un Job Big Data Batch pour qu’il utilise le framework Spark
  • Exécuter un Job Big Data Spark Batch
  • Suivre l’exécution d’un Job Big Data Spark Batch

Cas d’utilisation : analyse de sentiments

  • Utiliser l’API (application programming interface) Twitter avec des composants Talend
  • Charger des tweets dans HDFS
  • Traiter des tweets avec un Job Big Data Batch qui utilise le framework Spark
  • Activer la journalisation des événements du serveur d’historique Spark
  • Exécuter un Job Big Data Spark Batch en mode YARN Cluster
  • Déployer et planifier l’exécution d’un Job depuis Talend Administration Center (TAC)

Cas d’utilisation : analyse de données de téléchargement

  • Récupérer les données d’un SGBDR depuis un Job Big Data Spark Batch
  • Charger des données dans une table Hive et dans HDFS
  • Exécuter des requêtes HiveQL depuis un Job Big Data Spark Batch
  • Utiliser des caches pour accélérer le traitement d’un Job Spark Batch
  • Effectuer une analyse de données de téléchargement avec un Job Big Data Spark Batch
  • Exécuter une requête Spark SQL sur des données lues dans une table HBase NoSQL