Qu’est-ce que l’intégrité des données et comment la garantir ?

Imaginez la situation suivante : une entreprise pharmaceutique vante la sûreté de son nouveau médicament miracle. Mais quand l’autorité sanitaire inspecte le site de production offshore, le travail est immédiatement arrêté. D’importantes données de contrôle qualité sont manquantes. Malheureusement, cet exemple concret d’intégrité des données compromise n’est pas rare. Les problèmes d’exactitude et de cohérence des données touchent toutes les industries et peuvent engendrer des ennuis mineurs comme des problèmes majeurs pour les entreprises.

En cette époque de big data, où le nombre de données traitées et stockées est plus important que jamais, il est crucial d’appliquer des mesures de préservation de l’intégrité des données collectées. Pour préserver ces données, il faut d’abord comprendre les bases et le fonctionnement de l’intégrité des données. Poursuivez votre lecture pour découvrir en quoi consiste l’intégrité des données, pourquoi elle est essentielle et ce que vous pouvez faire pour garder vos données intactes.

Qu’est-ce que l’intégrité des données ?

L’intégrité des données est l’exactitude, l’exhaustivité et la cohérence globales des données. L’intégrité des données désigne également la sûreté des données concernant la conformité à la réglementation — par exemple la conformité au RGPD — et la sécurité. Cette intégrité est maintenue par un ensemble de processus, règles et normes appliqués pendant la phase de conception. Quand l’intégrité des données est assurée, les informations stockées dans la base de données restent complètes, exactes et fiables, indépendamment de leur durée de stockage et du nombre de fois que l’on y accède. L’intégrité des données préserve également vos données des forces extérieures.

Types d’intégrité des données

Il existe deux types d’intégrité des données : l’intégrité physique et l’intégrité logique. Tous deux se composent d’un ensemble de processus et méthodes assurant l’intégrité des données dans les bases de données hiérarchiques et relationnelles.

Intégrité physique

L’intégrité physique est la protection de l’unité et de l’exactitude des données lors de leur stockage et récupération. En cas de catastrophe naturelle, de coupure de courant, ou de piratage des fonctions de la base de données, l’intégrité physique est compromise. Les erreurs humaines, la détérioration du stockage et tout un tas d’autres problèmes peuvent également empêcher les responsables du traitement des données, les programmeurs système, les programmeurs application et les vérificateurs internes d’obtenir des données précises.

Intégrité logique

L’intégrité logique conserve les données inchangées pendant leurs différentes utilisations dans une base de données relationnelle. L’intégrité logique protège également les données contre les erreurs humaines et les pirates informatiques, mais pas de la même manière que l’intégrité physique. Il existe quatre types d’intégrité logique.

Intégrité de l’entité

L’intégrité de l’entité s’appuie sur la création de clés primaires, ou de valeurs uniques identifiant des données, afin de garantir que les données ne sont pas répertoriées plus d’une fois et qu’aucune zone de table n’est nulle. Il s’agit d’une fonctionnalité des systèmes relationnels qui stockent les données dans des tables pouvant être reliées et utilisées de diverses manières.

Intégrité référentielle

L’intégrité référentielle désigne la série de processus nécessaires pour garantir un stockage et une utilisation homogènes des données. Les règles intégrées dans la structure de la base de données concernant l’utilisation des clés étrangères garantissent que seuls les changements, ajouts ou suppressions de données appropriés sont effectués. Ces règles peuvent inclure des contraintes qui éliminent l’entrée de doublons, garantissent l’exactitude des données, et/ou refusent l’entrée de données inadaptées.

Intégrité de domaine

L’intégrité de domaine consiste en un ensemble de processus qui garantissent l’exactitude de chaque donnée dans un domaine. Dans ce contexte, un domaine est un ensemble de valeurs acceptables qu’une colonne est autorisée à contenir. Cette intégrité peut inclure des contraintes et d’autres mesures limitant le format, type et nombre de données saisies.

Intégrité définie par l’utilisateur

L’intégrité définie par l’utilisateur implique les règles et les contraintes créées par l’utilisateur pour satisfaire ses besoins particuliers. Il arrive que l’intégrité de l’entité, l’intégrité référentielle et l’intégrité de domaine ne suffisent pas à préserver les données. Souvent, des règles d’entreprise spécifiques doivent être prises en compte et incorporées aux mesures d’intégrité des données.

Ce que l’intégrité des données n’est pas

À force de parler d’intégrité des données, sa véritable signification peut être confuse. On confond souvent l’intégrité des données avec la sécurité des données et la qualité des données, mais chaque terme possède sa propre signification.

L’intégrité des données n’est pas la sécurité des données

La sécurité des données est l’ensemble de mesures prises pour empêcher la corruption des données. Elle inclut l’utilisation de systèmes, processus et procédures qui bloquent l’accès des données aux personnes qui pourraient en faire une utilisation néfaste ou détournée. Les failles de sécurité des données peuvent être mineures et faciles à contenir, comme elles peuvent être majeures et entraîner de sérieux dommages.

Si l’objectif de l’intégrité des données est de conserver des données intactes et précises tout au long de leur cycle de vie, la sécurité des données vise quant à elle à protéger les informations d’attaques extérieures. La sécurité des données n’est qu’un aspect parmi d’autres de l’intégrité des données. La sécurité des données n’est pas assez vaste pour inclure les nombreux processus nécessaires pour garder les données inchangées dans le temps.

L’intégrité des données est différente de la qualité des données

Les données dans votre de base de données sont-elles conformes aux normes et besoins de votre entreprise ? La qualité des données répond à cette question à l’aide d’un ensemble de processus qui mesurent l’âge, la pertinence, l’exactitude, l’exhaustivité et la fiabilité des données.

Tout comme la sécurité des données, la qualité des données n’est qu’une partie de l’intégrité des données, mais une partie cruciale. L’intégrité des données englobe chacun des aspects de la qualité des données et va plus loin en appliquant un ensemble de règles et processus qui régissent les manières dont les données sont saisies, stockées et transférées, entre autres.

Intégrité des données et conformité au RGPD

L’intégrité des données est essentielle pour garantir la conformité avec les règlements de protection des données comme le RGPD. Le non-respect de ces règlements peut exposer les entreprises à de lourdes amendes. Dans certains cas, ces amendes peuvent s’accompagner d’actions en justice. Des infractions de conformité répétées peuvent même entraîner la faillite d’entreprises.

Heureusement, il existe des moyens de garantir l’intégrité des données nécessaire à la conformité au RGPD et autres lois relatives à la protection des données.

Risques relatifs à l’intégrité des données

Il existe une multitude de facteurs qui peuvent affecter l’intégrité des données stockées dans une base de données. On peut par exemple citer :

  • L’erreur humaine : quand des personnes ne saisissent pas correctement certaines informations, dupliquent ou effacent des données, ne suivent pas le protocole approprié ou font des erreurs en appliquant les procédures censées protéger les informations, l’intégrité des données est menacée.
  • Erreurs de transfert : une erreur de transfert se produit quand des données ne peuvent pas être transférées correctement d’un emplacement d’une base de données à un autre. Les erreurs de transfert se produisent quand une donnée est présente dans la table de destination, mais pas dans la table source de la base de données relationnelle.
  • Bugs et virus : les logiciels espions, les logiciels malveillants et les virus sont des logiciels capables d’envahir un ordinateur et d’altérer, effacer ou voler des données.
  • Matériel compromis : les pannes soudaines d’ordinateur ou de serveur, et les problèmes de fonctionnement d’un ordinateur ou d’un autre appareil, sont des exemples de défaillances importantes qui peuvent indiquer que votre matériel est compromis. Un matériel compromis peut rendre les données incorrectes ou incomplètes, limiter ou supprimer l’accès aux données, ou compliquer l’utilisation des informations.

Les risques liés à l’intégrité des données peuvent aisément être réduits ou éliminés en prenant les mesures suivantes :

  • limiter l’accès aux données et changer les permissions pour limiter les modifications de données par des personnes non autorisées ;
  • valider les données pour s’assurer qu’elles sont correctes quand elles sont collectées et quand elles sont utilisées ;
  • sauvegarder les données ;
  • utiliser des journaux pour suivre les ajouts, modifications ou suppressions de données ;
  • mener des audits internes réguliers ;
  • utiliser un logiciel de détection d’erreurs

Premiers pas vers l’intégrité des données

Protéger l’intégrité des données de votre entreprise en utilisant des méthodes classiques peut se révéler éprouvant. Les plateformes sécurisées d’intégration des données basées dans le cloud représentent une alternative moderne qui vous offre une vue en temps réel sur l’ensemble de vos données. Avec des outils d’intégration cloud de pointe, vous pouvez connecter de multiples applications de données source et accéder à l’ensemble des données de votre entreprise à partir d’un même endroit.

Regardez le Guide complet de la Gouvernance des données pour découvrir comment établir un cadre d’intégrité des données.

Prêt à faire vos premiers pas avec Talend ?