Talend Studio for Data Quality permet aux utilisateurs métier et aux équipes de gestion des données d’évaluer le niveau de qualité des données contenues dans toute source de données. Ce produit permet également de vérifier l’exhaustivité, l’exactitude et l’intégrité des données en préparation d’une migration, d’une consolidation d’instance et d’une intégration de données.

Cette formation est conçue pour vous permettre de vous servir, sans attendre, de Talend Studio for Data Quality. Elle vous permet d’évaluer la qualité des données contenues dans le système d’information selon un ensemble de métriques et de seuils, grâce à une série d’indicateurs, de modèles et de règles pour chaque élément de données à analyser ou à monitorer.

Durée 2 jours (14 heures)
Public Toute personne souhaitant utiliser Talend Studio for Data Quality pour évaluer le niveau de qualité de ses données.
Pré-requis Connaissance du langage SQL. Avoir suivi les formations Introduction to Talend Studio ou Talend Data Integration Basics.
Objectifs

À l’issue de cette formation, vous pourrez :

  • Vous connecter à une base de données et y exécuter une analyse
  • Examiner le contenu d’une connexion à une source de données
  • Créer, configurer et lancer une analyse sur une colonne
  • Générer des expressions régulières pour analyser la qualité de données via le rapprochement des modèles (pattern matching)
  • Définir des seuils de qualité et lever des alertes lors d’une analyse
  • Créer, configurer et exécuter différents types d’analyse de table
  • Définir une règle métier SQL et l’appliquer à une analyse pour identifier les données conflictuelles
  • Créer, configurer et exécuter une analyse de rapprochement sur une table afin d’identifier les données en doublon
  • Utiliser le rapprochement avancé pour améliorer l’identification des doublons
  • Garantir l’anonymisation des données en masquant et en mélangeant des informations clients
  • Afficher des rapports d’analyse sur le Data Quality Portal et au format PDF
Plan du cours

Introduction à Talend Data Quality

  • Concepts
  • Résumé des types d’analyse

Analyse de la qualité de données

  • Créer une connexion à une base de données
  • Exécuter des analyses structurelles
  • Exécuter une analyse de colonne simple
  • Utiliser des expressions régulières
  • Définir des indicateurs de seuil d’alerte
  • Appliquer des statistiques avancées
  • Générer des Jobs à partir d’une analyse
  • Utiliser l’analyse multi-colonnes
  • Utiliser une analyse de règle métier
  • Utiliser une analyse de redondance

Rapprochement avancé

  • Préparer une analyse de rapprochement
  • Tester le processus d’analyse de rapprochement
  • Exécuter une analyse de rapprochement
  • Configurer les paramètres avancés pour l’analyse de rapprochement sur une table
  • Utiliser un Job d’intégration de rapprochement
  • Dédoublonner des adresses

Nettoyage des données

  • Standardiser des codes pays
  • Dédoublonner des adresses

Confidentialité des données

  • Mélanger les données pour en assurer la confidentialité (shuffling)
  • Masquer les données pour en assurer la confidentialité
  • Masquer les données selon un modèle