Principes de base de la gestion des métadonnées

Définition, fonctionnement et objectifs

La gestion des métadonnées est devenue l'un des composants les plus importants d'une stratégie numérique aboutie. Avec la montée en puissance des architectures distribuées telles que les big data et le cloud, susceptibles de créer des systèmes et des données en silos, la gestion des métadonnées est désormais cruciale pour la bonne gestion des informations d'une organisation. De nombreuses documentations sur le sujet sont disponibles en ligne, et il peut être difficile pour les utilisateurs de comprendre la terminologie. Dans cet article, je souhaite vous présenter brièvement la gestion des métadonnées dans un langage simple.

Définition de la gestion des métadonnées

Commençons par la base. De nombreuses définitions de la gestion des métadonnées existent, mais disons que la fonctionnalité principale est de permettre à un utilisateur métier de rechercher et d'identifier des informations selon des attributs clés dans une interface utilisateur Web.

Un attribut clé pour la recherche peut être par exemple l'identifiant client ou le nom d'un membre. Avec un système de gestion des métadonnées efficace, les utilisateurs métier peuvent comprendre d'où les données correspondant à un attribut spécifique proviennent, et comment ces données ont été obtenues. Ils peuvent ainsi visualiser dans quels systèmes internes de l'organisation l'attribut est utilisé (historique) et peuvent comprendre l'impact de tout changement apporté à l'attribut, tel qu'un changement de longueur, sur les autres systèmes (analyse d'impact).

Les utilisateurs techniques ont aussi besoin de la gestion des métadonnées. En combinant les métadonnées métier et les métadonnées techniques, un utilisateur technique peut déterminer quel job ETL ou processus de base de données est utilisé pour charger des données dans l'attribut. Les métadonnées opérationnelles, telles que les tables de contrôle dans une charge de data warehouse, peuvent également être combinées dans ce modèle de métadonnées intégrées. Avoir ces informations à disposition peut se révéler très utile pour un utilisateur final. Le résultat de la gestion des métadonnées peut être une autre « base de données » des métadonnées des attributs clés de la société. Ce type de bases de données est appelé dans le métier catalogue de données, glossaire ou inventaire de données.

Fonctionnement de la gestion des métadonnées

La gestion des métadonnées n'est que l'une des initiatives d'un programme holistique de gouvernance des données, mais c'est la seule qui traite des métadonnées. Les autres initiatives, telles que la gestion des données de référence (Master Data Management, ou MDM) et la gestion de la qualité des données (Data Quality, ou DQ) concernent les données en elles-mêmes, celles stockées dans différents systèmes. La gestion des métadonnées intègre les magasins de métadonnées au niveau de l'entreprise.

Les outils tels que Talend Metadata Manager permettent d'analyser et de charger automatiquement différents types de métadonnées. Cet outil permet également de créer un modèle à l'échelle de l'entreprise, basé sur les métadonnées générées depuis divers systèmes, comme un data warehouse, des outils d'intégration de données ou de modélisation de données, etc.

Vous pouvez ainsi résoudre les conflits liés par exemple aux noms et types d'attributs. Vous pouvez également créer des types de métadonnées personnalisés, pour faire correspondre des métadonnées entre deux systèmes. Un modèle de gestion des métadonnées parfait offre une vision à 360 degrés sur les interconnexions des différents systèmes de l'organisation. Ce modèle peut être le point de départ d'une nouvelle initiative de gouvernance des données. Les modéliseurs de données ont accès à un emplacement unique pour rechercher un attribut spécifique et l'utiliser dans leur propre modèle. Ce modèle est également le fondement de la « base de données » que nous avons évoquée ci-dessus. Comme pour toute initiative de gouvernance des données, le modèle devra être mis à jour pour suivre l'évolution des métadonnées dans chaque système, selon une méthodologie SDLC incluant le contrôle des versions, les workflows et les approbations. L'accès au modèle de métadonnées doit également être géré en créant des rôles, des privilèges et des politiques.

Objectifs de la gestion des métadonnées

L'objectif principal est la confiance. Si les métadonnées ne sont pas gérées durant le cycle de vie du système, des silos de métadonnées incohérentes sont créés dans l'organisation. Ceux-ci ne peuvent pas répondre aux besoins des équipes et fournissent des informations contradictoires. Sans métadonnées pour indiquer comment et quand les données sont entrées dans le système, et quelles règles métier ont été appliquées, les utilisateurs ne savent pas s'ils doivent se fier aux données.

Le coût est également un facteur important. Si les métadonnées ne sont pas réellement gérées, les exigences en matière de données doivent être définies individuellement pour chaque projet de développement, ce qui augmente les coûts et diminue l'efficacité. De nombreux outils et technologies sont proposés aux utilisateurs, créant ainsi de la redondance et des coûts supplémentaires. Le résultat n'est cependant pas à la hauteur des investissements, car les données recherchées ne sont pas disponibles. Les définitions de données sont dupliquées sur plusieurs systèmes, ce qui augmente les coûts de stockage.

Les sociétés évoluant, et toujours plus de systèmes étant ajoutés, il faut se poser la question de la gouvernance des métadonnées, et pas simplement des données. La gestion des métadonnées offre de réels avantages à la fois aux utilisateurs métier et techniques, et aux entreprises dans leur ensemble. J'espère que cette introduction aux concepts de base de la gestion des métadonnées vous aura été utile. À bientôt pour un prochain article !

Prêt à faire vos premiers pas avec Talend ?