Cycle de vie des données : Définition et étapes

La gestion du cycle de vie des données correspond aux pratiques de data management dans une organisation, de leur création à leur suppression. Toutes les entreprises, quel que soit le secteur d’activité, génèrent des données qui passent par différentes étapes successives. Et malgré la pluralité d’informations, le cycle de la vie de données s’articule toujours autour de 7 grandes étapes.

Cycle de vie des données : qu’est-ce que le data lifecycle management ?

Le Data lifecycle management (DLM) ou gestion du cycle de vie des données en français désigne la gestion du flux de data tout au long de leur existence. En d’autres termes, il s’agit de définir toutes les étapes par lesquelles une donnée va passer depuis sa collecte/création à sa suppression.

Les outils DLM permettent de faciliter cette gestion, de réduire les coûts, de se conformer aux lois et réglementation comme la RGPD mais aussi d’automatiser une bonne partie des différentes étapes du cycle.  

Les 7 étapes du cycle de vie des données

   1. Collecte des données

Le cycle des données commence bien évidemment par la collecte d’informations. En amont nous rappellerons que la récupération de datas nécessite le consentement des personnes concernées et que le recueil des informations se cantonne aux données nécessaires pour l’opération. Voici les 3 principales techniques d’une entreprise pour la création de données :

  • Acquisition de données : Les données sont déjà existantes et ont été recueillies en dehors de l’entreprise, elles sont donc importées de l’extérieur.
  • Saisie de nouvelles données : Il s’agit de données saisies manuellement par quelqu’un de l’entreprise
  • Capture de données : Les données récupérées automatiquement par tous les supports différents de l’entreprise

   2. Stockage des données

Dans cette étape, les données fraîchement créées ou récoltées sont stockées. Ici l’important est d’évoluer dans un environnement le plus sécurisé et le plus protégé possible. Un process de restauration robuste doit voir le jour afin de s’assurer la bonne conservation des datas dans le cycle.

Il existe de nombreuses manières de stocker les données : disque dur, serveur, cloud, data warehouse

   3. Traitement des données

Les données une fois collectées doivent être traitées. Elles peuvent subir par exemple :

  • Une simple compression
  • Un cryptage des informations
  • Un data wrangling (nettoyage des données).

   4. Analyse des données

Après le traitement des données, les résultats seront bruts. Afin de donner un sens à tout cela, il faut procéder à une analyse des datas pour répondre aux questions qui ont déclenché cette collecte des données. Pour cela, différents outils peuvent être utilisés : Virtualisation de data, Machine Learning, etc.

Il est impératif de garder une traçabilité de toutes les modifications apportées aux données notamment sur les plus sensibles. Les données peuvent être également partagées à des tiers personnes/entreprises en dehors de l’organisation.

   5. Sauvegarde des données

Lors de la sauvegarde des data, une copie des données est créée puis stockée dans un nouveau support afin d’optimiser sa sécurité. Cette sauvegarde peut être faite de manière complète, différentielle, etc. Elle peut même être réalisée plusieurs fois lors du cycle de vie des données.

La règle générale pour l’étape DLM de la sauvegarde des données est la suivante : les données exploitées régulièrement sont stockées sur des supports rapides (qui sont bien sûr plus coûteux) alors que les données plus anciennes sont stockées sur des supports plus lents.

   6. Réutilisation des données

Des données peuvent être utilisées de nouveau pour de nombreuses raisons (répondre à une nouvelle interrogation, ajouter de nouvelles données pour les confronter ou les ajouter à des anciennes données pour obtenir de nouveaux résultats, etc.). Il faut donc pouvoir jongler entre les différents supports et l’ensemble de l’architecture des données afin de ne pas ralentir les accès et le traitement des informations pour obtenir des résultats rapides.

   7. Suppression des données

Le volume de données archivées augmente inévitablement. Même si les entreprises souhaitent conserver toutes les data acquises, cela est impossible. L’un des principaux problèmes est le coût nécessaire pour cette conservation qui impliquerait la mise en place de solutions de stockage trop importantes.

Il est possible également que les données soient devenues complètement obsolètes et inutiles. La méthode de destruction dépend également de la sensibilité des données. Par exemple, des données non sensibles peuvent être simplement supprimées tandis que d’autres nécessitent la destruction du support physique de sauvegarde.

Dans cette étape du cycle de vie des données, le plus important est de s’assurer de la bonne destruction des données et qu’il n’existe pas une autre copie du fichier. De plus, lors de la collecte de données, il est obligatoire pour l’entreprise de stipuler une date de « péremption » de celles-ci. Une fois arrivée à échéance les données doivent être supprimées.

Différence entre le DLM (Data life management) et l’ILM (information lifecycle management)

Termes connexes qui portent souvent à confusion, les deux éléments sont complémentaires. Le DLM est le système qui permet à une donnée de passer d’une phase à une autre depuis sa création jusqu’à sa disparition. L’ILM quant à lui se pose la question : A quel moment une data peut-elle être supprimée ? Ici l’ILM cherche à savoir si la donnée est pertinente et exacte.

L’ILM permet par exemple de chercher des données spécifiques versus le Data Lifecycle Management qui lui traitera des attributs plus généraux.

Cycle de vie des données, ce qu’il faut retenir

Il existe plusieurs autres interprétations possibles pour le cycle de vie des données mais celui que nous venons de voir est un excellent aperçu du processus et des enjeux auxquels les entreprises doivent répondre.

Aujourd’hui, il est vrai que la richesse des organisations repose sur la détention de datas. Il est donc primordial pour elles de récolter, exploiter, analyser de façon la plus rapide et correcte possible. Que ce soit vis-à-vis de l’obtention de ses données, de leurs traitements ainsi que sur la durée de conservation.

Ce cycle de vie des data est donc devenu un réel focus pour les entreprises, mais grâce à des outils DLM et ILM, il est désormais possible de s’assurer une bonne gestion des risques et d’être en conformité permanente aux lois et règles en vigueur.

Prêt à faire vos premiers pas avec Talend ?