Qu'est-ce que Talend Data Stewardship et pourquoi en avez-vous besoin ?

En quoi votre prochain projet basé sur les données est-il concerné par l'intendance des données ?

Si vous voulez exploiter au mieux vos données, l'intendance des données (ou « data stewardship ») est incontournable. De nombreuses sociétés alimentent leurs data lakes avec d'énormes volumes de données structurées et non structurées. Mais elles ont tendance à oublier un point important : en moyenne, les organisations estiment que 32 pour cent de leurs données sont inexactes. Il semble donc indispensable de traiter le problème de la qualité des données, pour éviter que le data lake ne devienne inexploitable. C'est exactement pour cette raison que l'intendance des données existe.

L'intendance des données devient critique pour obtenir des insights pertinents depuis les données, dans l'ensemble d'une entreprise. Des données propres et fiables sont davantage utilisées, et permettent de réduire les coûts dus à des données de mauvaise qualité, comme des décisions basées sur des analyses incorrectes.

Qu'est-ce que l'intendance des données ?

Vous savez pertinemment que les données avec lesquelles vous travaillez chaque jour sont souvent incomplètes, et parfois incorrectes. Vous pouvez peut-être corriger cela, car vous connaissez vos données. Mais cela ne sera pas possible si vous devez traiter d'immenses quantités de données, ou si d'autres équipes ajoutent leurs propres données, qu'elles sont seules à bien connaître. N'oubliez pas non plus qu'utiliser des e-mails ou Excel pour résoudre des problèmes de qualité de données n'est pas très efficace, sans parler des risques liés à la prolifération de copies non contrôlées de données potentiellement sensibles dans différents dossiers, partout dans l'entreprise. Vous avez besoin de règles, de processus et d'outils dédiés pour gérer la qualité des données de manière efficace et durable.

L'intendance des données gère le cycle de vie des données de l'agrégation à la mise hors service, et est un composant essentiel de la gouvernance de données. Elle définit et gère les modèles de données, documente et nettoie les données, et définit les règles et politiques à suivre. Elle permet l'implémentation de processus de gouvernance des données bien définis, couvrant différentes activités, dont la surveillance, la réconciliation, l'affinage, la déduplication, le nettoyage et l'agrégation, afin d'aider à fournir des données de qualité aux applications et aux utilisateurs finaux.

Non seulement l'intendance des données améliore l'intégrité des données, mais elle aide également à assurer une utilisation cohérente des données au sein de l'organisation, et réduit l'ambiguïté des données grâce aux métadonnées et à la sémantique. En résumé, l'intendance des données diminue les « mauvaises données » dans votre société, améliorant ainsi les processus de prise de décision et éliminant les coûts supplémentaires dus à l'utilisation d'informations incorrectes.

Les tâches d'intendance des données sont en général assignées à une équipe d'experts en données, les arbitres de données (ou « data stewards »). Le problème est qu'il n'y a que quelques arbitres de données dans chaque société, et qu'ils se consacrent en général exclusivement aux projets à haut risque, ceux liés à la conformité réglementaire par exemple. Si aucun arbitre de données n'est disponible, personne ne sait qui est responsable de la qualité des données. C'est ainsi que l'on parvient à cette situation terriblement frustrante, où les organisations

L'intendance des données doit maintenant être un sport d'équipe

Les sociétés travaillent sur de plus en plus de projets basés sur des données provenant de différentes sources, et les data scientists, équipes marketing ou responsables des opérations utilisent de plus en plus les données. Pour ces raisons, l'intendance des données doit être repensée. Les outils d'intendance des données de prochaine génération doivent proposer les fonctionnalités suivantes :

  • Libre-service : tout membre de l'équipe informatique d'une société doit pouvoir résoudre les problèmes de qualité des données de façon contrôlée
  • Collaboration entre membres de l'équipe : y compris l'orchestration des workflows et des tâches
  • Interaction manuelle : dans les cas d'arbitrage et de certification des données où une intervention humaine est requise pour valider, certifier, baliser ou sélectionner un dataset
  • Intégration avec la préparation des données : définir un processus pour les projets où chacun importe ses propres données
  • Confidentialité intégrée : l'administrateur de la sécurité des données et les équipes de conformité doivent pouvoir gérer les nouvelles règlementations du secteur en matière de confidentialité, telles que le RGPD (Règlement général sur la protection des données)

Présentation de Talend Data Stewardship

Nous sommes fiers de lancer, avec la version Talend Winter ’17, une nouvelle fonctionnalité : l'application Talend Data Stewardship, un outil complet pour configurer et gérer les données, qui règle les problèmes de qualité retardant vos projets.

Plus qu'un simple outil destiné aux experts que sont les arbitres de données, il permet aux utilisateurs commerciaux d'utiliser un outil en mode pointer-cliquer, semblable à Excel, pour organiser leurs données. Avec Talend Data Stewardship, vous pouvez gérer et résoudre rapidement tout problème d'intégrité des données, afin d'en garantir la fiabilité sur l'ensemble de l'entreprise. L'outil permet de définir les modèles de données, la sémantique et les règles communes nécessaires au nettoyage et à la validation des données, puis de définir des rôles utilisateur, des workflows et des priorités, et enfin de déléguer des tâches à ceux qui connaissent le mieux les données. La productivité est améliorée pour vos tâches d'agrégation, via la mise en correspondance et la fusion des données, la résolution des erreurs, la certification et l'arbitrage du contenu.

Le libre-service est la délégation des tâches autrefois effectuées par des professionnels, tels que des experts en données, à des travailleurs opérationnels connaissant mieux les données. Il nécessite des outils faciles d'utilisation, basés sur des workflows, avec une expérience utilisateur semblable à celle d'Excel et des conseils intelligents. Talend Data Stewardship utilise la même interface utilisateur que Talend Data Preparation. Les outils sont regroupés dans une suite unifiée pour permettre l'accès, la préparation, l'intégration et l'agrégation des données en libre-service. Talend Data Preparation permet aux utilisateurs commerciaux d'obtenir des données propres et utiles en quelques minutes (et non en quelques heures) à la demande, tandis que Talend Data Stewardship orchestre le travail global de réparation, de fusion et de certification des données avec l'agrégation des données en libre-service. Tout comme ils utilisent Word et Excel pour leurs tâches bureautiques, les travailleurs des données accèdent à ces outils avec une expérience utilisateur cohérente et les utilisent selon les besoins spécifiques de chaque cas.

Parfaitement intégré à Talend Platform, Talend Data Stewardship peut être associé à tous les flux de données et styles d'intégration gérés par Talend : vous pouvez donc assurer la gouvernance et l'intendance au cœur des flux d'intégration de données, des initiatives MDM et des processus de mise en correspondance.

Des outils pour tous

Les concepts centraux de Talend Data Stewardship sont les campagnes et les tâches. Deux rôles sont d'ailleurs prédéfinis dans l'outil : les gestionnaires de campagne et les arbitres de données.

  • Les gestionnaires de campagne peuvent définir les différentes campagnes, dont l'arbitrage, la résolution ou la fusion. Ils invitent les arbitres de données à participer à chaque campagne. Ils définissent la structure des données utilisées par les campagnes. Ils se réfèrent aux jobs Talend pour charger des tâches dans les campagnes, et enfin ils assignent des tâches aux différents arbitres de données.
  • Les arbitres de données peuvent parcourir les données liées à leurs tâches et résoudre les tâches, enregistrement par enregistrement ou par lot. Ils peuvent déléguer des tâches à des collègues, et surveiller et auditer les campagnes d'intendance et les erreurs de résolution des erreurs de données.

De plus, Talend Data Stewardship peut déclencher des workflows de validation pour des tâches devant être revérifiées. L'outil est facile à utiliser, car il propose une expérience guidée et suit des workflows. Tout le monde peut donc participer à l'agrégation des données, chacun ayant une responsabilité claire et des outils efficaces à sa disposition.

Exemple de cas d'usage CRM

Prenons comme exemple un cas d'usage dans lequel vous souhaitez améliorer la qualité des données dans votre système CRM, car il contient de nombreuses données incorrectes ou dupliquées. En tant que gestionnaire de campagne utilisant Talend Data Stewardship, vous devez définir une campagne de résolution et des objectifs (par ex., corriger les adresses incorrectes), puis mettre en quarantaine les données à vérifier, c'est-à-dire les enregistrements vides ou contenant des données incorrectes, et les doublons potentiels. Vous devez ensuite définir les participants pour cette campagne, par exemple tous les responsables régionaux du marketing, les responsables du marketing digital et les administrateurs des ventes. Il faut également assigner les tâches : par exemple, les tâches de résolution des erreurs pour les contacts marketing en Allemagne sont assignées aux responsables marketing allemands, car ce sont eux qui connaissent le mieux les données et qui sont le plus à même de les certifier, de les corriger et d'effectuer le rapprochement à partir de diverses sources. Ce sont également eux qui tireront un bénéfice immédiat des données nettoyées, en améliorant le taux de conversion de leurs campagnes marketing. Vous pouvez suivre les changements apportés aux données par chaque participant (vérification des adresses postales, des numéros de téléphone et des adresses e-mail par exemple).

Une campagne de fusion doit ensuite être créée pour faire correspondre et fusionner les enregistrements en double, et les administrateurs des ventes peuvent fusionner ces enregistrements.

Essayez Talend Data Stewardship en conditions réelles

En résumé, des outils de qualité des données en libre-service sont aujourd'hui indispensables pour tirer le meilleur profit des données dans ce contexte de consommation accrue de données. Les entreprises peuvent ainsi bénéficier d'une plus grande utilisation de leurs données et prendre des décisions éclairées grâce à des données de meilleure qualité. Les équipes informatiques, elles, peuvent déléguer les tâches de nettoyage des données à d'autres services.

Si vous avez besoin de gérer les données que vous importez dans votre data lake, essayez Talend Data Stewardship !

Prêt à faire vos premiers pas avec Talend ?