Les entreprises du monde entier comptent plus que jamais sur les données. Cependant, il existe une différence entre être entouré de données au quotidien et utiliser ces données pour prendre des décisions commerciales. La seule façon d’atteindre les objectifs stratégiques de votre entreprise consiste à prendre des mesures basées sur des données fiables et de haute qualité. En un mot, sur des données saines. Nous vivons à l’ère du Big Data : plus une entreprise gère de données, plus il peut s’avérer difficile pour elle d’en préserver la santé.

La plupart des gens savent intuitivement que des données saines doivent être fiables, complètes et conformes aux exigences légales et règlementaires. Malheureusement, ces facteurs ne suffisent pas à garantir des données prêtes à l’utilisation pour la prise de décisions commerciales. La plupart des entreprises ne sont pas en mesure de s’assurer de la santé de leurs données, et il serait insensé de vous appuyer sur des données dont vous ne pouvez pas garantir la santé. Une partie du problème réside dans le fait que même si les gens pensent comprendre ce que signifie la santé des données, ils ont du mal à la définir ou à l’évaluer.

Commençons par une définition claire de la santé des données.

Santé des données : définition

La santé des données concerne l’état des données d’une entreprise et la manière dont elles accompagnent la prise de décisions et d’objectifs commerciaux efficaces, en temps opportun. Pour savoir si les données de votre entreprise sont saines, vous devez être en mesure de prouver qu’elles sont valides, complètes et de qualité suffisante pour produire des analyses sur lesquelles les décideurs peuvent s’appuyer afin de prendre des décisions commerciales en toute confiance.

La vision de Talend en matière de santé des données allie technologies et comportements pour mesurer et gérer les données afin d’améliorer leur visibilité, leur compréhension et leur valeur. Des données saines permettent à tous les membres de l’entreprise d’accéder aux informations dont ils ont besoin, quand ils en ont besoin et de les utiliser sans questionner leur validité.

Comme tout système de santé, la santé des données implique de mettre en place des capacités de monitoring et d’intervention tout au long de leur cycle de vie. Nous envisageons la santé des données selon trois piliers :

  • Des soins préventifs : identification préventive des défis liés aux données
  • Des traitements efficaces : amélioration systématique de la fiabilité des données et diminution des risques
  • Une culture de soutien : mise en place d’une discipline partagée de soins des données

Grâce à des indicateurs de santé des données qui prouvent la valeur commerciale de ces dernières, une entreprise peut agir positivement sur presque tous les aspects de ses opérations :

  • Améliorer l’analytique des ventes et du marketing
  • Répondre aux problématiques de gouvernance et de conformité des données
  • Optimiser les processus d’entreprise
  • Transformer l’expérience client
  • Favoriser un engagement à 360 degrés
  • Faciliter le machine learning et l’IA

Sans données saines, tout cela est mis en péril. Vous ne pouvez pas cibler les bons clients, raccourcir les cycles de vente ou améliorer les processus si les données disponibles sur lesquelles votre travail repose sont inexactes, non contrôlées ou obsolètes. Une mauvaise santé des données s’avère coûteuse, tant en matière de temps que de qualité pour les entreprises dans leur prise de décisions, ce qui augmente les coûts et peut avoir un impact négatif sur les résultats financiers. À mesure que vous évoluez vers le Big Data, la santé des données revêt une importance croissante. Il est essentiel pour les entreprises qui travaillent avec le Big Data d’établir des indicateurs de santé.

Comment savoir si vos données sont saines ?

Mesurer la santé des données

La qualité des données est une considération majeure pour la santé des données. L’association britannique Data Management Association of the UK définit six facteurs pour mesurer la qualité des données :

  • La précision : le degré selon lequel les données décrivent correctement l’objet réel ou l’évènement décrit
    • Exemple : les calculs des salaires des collaborateurs sont-ils basés sur leurs heures de travail réelles ?
  • L’exhaustivité : la proportion de données stockées dans un dataset par rapport au potentiel de 100 %
    • Exemple : les enregistrements d’adresses contiennent-ils des données dans tous les champs d’adresse nécessaires pour envoyer un courrier postal vers sa destination ? Code postal complet ? Nom du pays ?
  • La cohérence : l’absence de différence, lorsque l’on compare deux ou plusieurs représentations d’une chose par rapport à une définition donnée
    • Exemple : un tableau contient-il des données caractérisées comme appartenant à une division particulière, même si cette division a été supprimée après une réorganisation ?
  • Les délais : le degré de représentation des données par rapport à une échéance précise
    • Exemple : si les décisions budgétaires sont prises sur la base des statistiques de vente, à quelle vitesse les données de vente sont-elles mises à la disposition des décideurs ?
  • L’unicité : aucun élément, ou instance d’entité, n’est enregistré plus d’une fois en fonction de la façon dont cet élément est identifié
    • Exemple : lorsqu’un système met à jour un enregistrement, pouvez-vous être sûr qu’il ne crée pas un double de l’enregistrement original avec des informations plus récentes ?
  • La validité ou la conformité : le degré de conformité des données à la syntaxe (format, type ou plage) de leur définition
    • Exemple : une adresse postale « 1000 Data Way » est valide (mais pas nécessairement exacte), tandis qu’une adresse « /03H8 Data Way » n’est pas valide.

Les équipes chargées des données doivent évaluer elles-mêmes le niveau de qualité des données nécessaire pour s’assurer de la bonne santé des données. Elles doivent être en mesure de certifier ce niveau de qualité aux utilisateurs des données, afin qu’ils puissent à leur tour s’appuyer sur ces données en toute confiance. N’oubliez pas, cependant, que des données en bonne santé mais non disponibles ou non fiables ne peuvent pas étayer des décisions d’entreprise. Ce ne sont pas des données saines.

La santé des données étant une mesure de la valeur de ces dernières pour l’entreprise, la transparence et l’accessibilité sont aussi importantes que la qualité. Si les décideurs n’ont pas un accès facile aux données dont ils ont besoin, il est possible que l’entreprise ne dispose pas de ces données. D’autre part, la confidentialité des données portant sur des informations personnelles identifiables (PII) peut s’appliquer. Dans ce cas, il sera préférable d’isoler certaines données des utilisateurs non privilégiés. Une solide plateforme technologique de gouvernance des données, qui fait appel à des experts professionnels pertinents en tant que responsables des données, peut contribuer à améliorer l’exactitude et la sécurité de vos données.

Dans votre entreprise, les indicateurs de mesure de la santé des données peuvent inclure des facteurs supplémentaires tels que l’utilisation raisonnable et l’intégrité. Quels que soient les dimensions que vous prenez en considération, l’objectif est de pouvoir compter sur l’utilité de vos données dans toute l’entreprise. Plus vous pouvez évaluer vos données dans chacune de ces dimensions, plus vous pouvez les considérer comme saines.

Évaluation de la santé des données

À partir du moment où vous savez quoi mesurer, comment évaluer le bien-être de vos données ?

Un système de santé des données global repose sur des indicateurs universels de qualité des données. Avec des indicateurs standard, l’évaluation de la fiabilité et du potentiel d’action des données devient possible. Comme décrit ci-dessus, il n’est pas suffisant pour ceux qui préparent les données d’entreprise de savoir que les données répondent à des normes de qualité. Les utilisateurs finaux ne peuvent vraiment se fier à leurs décisions que lorsqu’ils disposent d’indicateurs prouvant la qualité des données.

L’enquête sur la santé des données menée en 2021 par Talend a révélé que moins de la moitié des dirigeants certifient que leur entreprise utilise des normes de qualité des données. Environ un tiers des dirigeants déclarent qu’aucune norme documentée n’est mise en place, et 19 % d’entre eux affirment ne pas en être sûrs. 95 % des dirigeants déclarent être en faveur de normes universelles et intersectorielles en matière de qualité des données.

Compte tenu du volume de données que votre entreprise gère probablement via des plateformes SaaS, des bases de données et des serveurs web publics, il est impossible de demander à quelqu’un d’examiner chaque enregistrement dans tous vos datasets. La meilleure approche consiste à recourir à une plateforme de données, qui comprend à la fois des capacités d’intégration et de gouvernance des données.

Elle doit vous permettre à la fois de lire l’état de santé des données et de traiter les données malsaines. Idéalement, vous devriez être en mesure d’obtenir un insight instantané indiquant les données de confiance et de disposer d’outils pour corriger les données non fiables. La plateforme doit répondre aux problèmes de santé des données en offrant un accès en libre-service, des outils de qualité des données omniprésents et des capacités de gouvernance exhaustives qui couvrent tous les flux et sources de données de bout en bout.

Vos données sont-elles en bonne santé ?

Avez-vous confiance dans la capacité de votre entreprise à fournir des données facilitant la prise de décisions ? Vous vous interrogez sur les statistiques concernant la santé de vos données ? Talend peut vous aider. Commencez par un check-up gratuit : exportez un sous-ensemble de vos données et passez-le au crible grâce à notre Talend Trust Assessor. Ce service gratuit fournit une évaluation rapide de la validité, de l’exhaustivité et de l’unicité de vos données. Si vous souhaitez simplement le découvrir, testez-le pour commencer avec notre dataset type.