Qu’est-ce que la metadata et pourquoi est-elle aussi importante que la data ?

Des exemples de données nous entourent constamment grâce à notre monde ultra connecté et à l’Internet des Objets. Comment rendre ses données claires et faciles à retrouver ? Comment améliorer la qualité de ses données ? Talend répond à toutes ces questions. Découvrez le système de metadata et pourquoi elles peuvent être significatives pour votre entreprise.

Qu’est-ce que la metadata ?

Définition de la metadata

Le préfixe grec “meta” exprime le fait d’aller au-delà, la réflexion ou l’auto-référence. Dans le cadre de la métadata, ou métadonnées en français, elles sont expliquées par le fait qu’il s’agisse de données d’autres données. Ce sont ainsi plus que de simples données, car elles permettent de fournir un contexte à d’autres données en obtenant des informations sur celle-ci et enrichir leur identité.

En plus de constituer la base de ses relations avec les autres données, la metadata est un outil qui se révèle être très utile pour les firmes, notamment en termes de gain de temps, d’organisation et du fait d’être en mesure de tirer le meilleur parti des fichiers sur lesquels une société travaille.

Origine de la metadata

L’origine de la metadata reste encore floue, tant nous savons qu’elle est apparue dans les années 1990, dans le cadre de la description de ressources sur Internet. Ce terme s’est ensuite répandu lors de l’apparition du vocabulaire web sémantique Dublin Core, qui tire son nom du groupe de travail américain réuni en 1995 en Ohio dans le but de fournir au gouvernement américain un modèle d’éléments utilisables dans la description de leurs ressources numériques. 

Caractéristiques de la metadata

Les rôles des métadonnées

Pour bien comprendre le fonctionnement des métadonnées, nous utiliserons l’exemple d’une image ou d’un tableau exhibé dans une galerie d’art.

Le rôle descriptif

Une métadonnée dite descriptive se rapporte à une information qui donne des détails supplémentaires à propos d’une donnée pour la rendre unique. Elle permet d’en comprendre le contenu. Une métadonnée bibliographique, qui assure le même rôle, permet l’accès à un document grâce à la mention de son auteur, titre, date de création ou de modification, …

Par exemple, si vous étiez amené à exhiber une image dans une galerie d’art, vous commenceriez par nommer l’auteur, ses dates de naissance et de décès ainsi que la ville où il habitait, le titre, ses composants, la taille de l’image, quand elle a été réalisée et une description de l’image. Dans un musée, tous ces renseignements pour le visiteur seraient renseignés sur un cartel. En informatique, ce sont les métadonnées.

Le rôle structural

Une metadata structurelle ou technique se rapporte aux indications reçues qui dictent la façon dont les données doivent être classées pour qu’elles puissent s’intégrer dans un système plus vaste. Les relations de ces données permettent de bénéficier d’une meilleure organisation et de pouvoir les utiliser d’une nouvelle manière. Elles indiquent le format, les techniques de production et le support d’une donnée.

Par exemple, pour savoir où placer votre image dans une galerie, il vous suffit de vous baser sur le cartel qui décrit votre image, pour le placer à côté d’images ayant une description, titre, auteur similaire. Dans une galerie d’art, l'œuvre serait catégorisée par son mouvement artistique ou sa période de création.

Le rôle administratif

Une metadata administrative fournit des renseignements sur l’historique d’une donnée. Elle est utile pour la conservation de ressources et pour les personnes qui sont en charge de la data en entreprise, pour qu’elles puissent s’informer sur le propriétaire d’une donnée ou ce qui peut être fait avec celle-ci. Concernant les métadonnées juridiques, elles sont sollicitées lors de la gestion d’un document pour connaître sa durée d’utilité administrative ou son régime de droit.

L’idée, c’est d’avoir une représentation et une structuration des idées dans la compagnie afin de ne plus avoir à passer des heures à chercher du contenu. En optant pour cette solution proactive, une société se voit saisir l’opportunité de gagner du temps et gagner en efficacité, en utilisant des schémas de classification (qu’il s’agisse de taxonomie, de thésaurus ou d'une ontologie) et un vocabulaire contrôlé (soit un lexique dont le but est de rendre possible l’organisation des connaissances pour optimiser la recherche d’informations).

Par exemple, lorsque l’exposition est terminée, l’image est conservée et étudiée pour connaître son histoire. Quand a-t-elle été terminée, où a-t-elle été conservée… Ces informations sont précieuses pour les historiens, les archivistes et les chercheurs. En termes de données, c’est la même chose. Les informations à propos d’une donnée sont une mine d’or pour les Data Scientists, Data Analysts et Data Engineer chargés du traitement de données en entreprise.

Les standards et normes de metadata

Compte tenu des possibilités d’utilisation des métadonnées dans des systèmes ou des ressources informatiques, il est nécessaire de faire usage de standards et de normes de metadatas pour rendre leur compréhension universelle.

Nous parlons alors de schéma de metadata, sous forme de constructions organisées d’informations.

Schémas de metadata

Grâce à une liste structurée composée d’éléments descriptifs reliés entre eux, le schéma définit la signification de chaque élément, le type de contenu attendu, sa formulation selon une norme ISO à respecter par exemple, et les valeurs possibles à attribuer. Ce sont donc des plans logiques qui ont leur propre profil spécifique à un domaine et sont plus ou moins complexes et/ou contraignants. En effet, pour construire ces schémas il est nécessaire d’utiliser le format XML qui est capable de fonctionner avec d’autres systèmes mais qui requiert des compétences informatiques. Cependant, c’est l’une des solutions les plus adaptées aux contenus complexes structurés en arborescences, ce qui explique son utilisation pour les schémas de métadonnées.

Trois principaux éléments de metadata permettent de les définir et de les structurer :

  • Ontologie, qui décrit un domaine de connaissance en identifiant les types d’objets de ce domaine, leurs propriétés et leurs relations.
  • Thésaurus, qui sert à indexer des contenus et/ou des ressources avec des mots-clés puis à les rechercher.
  • Taxonomie, qui sert à classifier, à ordonner des contenus ou des ressources.

Norme ISO

La norme ISO étant une norme internationale, tous les organismes sont évalués sur les mêmes critères afin d’accorder une homogénéité des critères de performance afin que le client bénéficie d’une qualité des produits et des services fournis.

Dans le modèle Dublin Core évoqué plus haut, les dates peuvent être renseignées dans un format libre, alors que la norme ISO 8601 exige le format spécifique YYYY-MM-DD.

Le Learning Object Metadata French Resources (LOMFR), modèle français de description des métadonnées associées à des entités pédagogiques, utilise la norme ISO 8601 qui spécifie la représentation numérique de la date et de l’heure basée sur le système horaire de 24h et le calendrier grégorien. Ainsi, lorsqu’une exploitation concernée par ce standard souhaite exprimer une durée, elle doit le faire sous le format suivant : P2Y1M2DT1H20M25.55S ce qui traduit une Période de 2 ans et 1 mois puis une relation Temporelle de 1 heure 20 minutes et 25.55 secondes.

Pourquoi la métadata est-elle intéressante pour une entreprise ?

Avantages et opportunités

Nombreux sont les avantages et opportunités professionnelles offertes aux industries par l’utilisation de la metadata, qui se définit par sa fonction. Ainsi, les métadonnées ont prouvé leur utilité grâce à la préciosité de ses informations, car elles peuvent aider une organisation dans ses recherches et dans sa stratégie de découvrabilité.

Dans les moteurs de recherche, les balises méta servent à structurer le langage de description de format de document XML dans la conception de pages web. Si ces normes sont respectées en plus de la description du contenu et des relations entre les fichiers d’un site et le classement du contenu suivant un public cible, le site ou la page d’un site web est mieux référencée dans la SERP (Search Engine Result Page). Cela signifie alors que plus un schéma impose une description riche, précise et normalisée, plus la ressource décrite a des chances d’être visible sur le web.

Partager et échanger des précisions concernant des données favorise l’interopérabilité et facilite la gestion et l’archivage de celles-ci. Être informé sur le cycle de vie d’un document permet à une entreprise de s’organiser davantage dans sa gestion de collections de ressources et des archives électroniques. Cela permet également d’améliorer la qualité de ses données.

Limites et RGPD

Les limites de l’utilisation de métadonnées

Les métadonnées nous entourent quotidiennement, ce qui signifie que leur utilisation au sein de l’organisation d’une société peut lui être bénéfique. Mais pour être efficaces, les metadata doivent impérativement être coordonnées, conservées et mises à jour pour faire valoir la valeur marchande d’un commerce. En effet, une exploitation qui n’entreprend pas une gouvernance de données ou qui ne remplit jamais ou pas correctement ses métadonnées peut être amenée à perdre considérablement du temps et/ou de l’argent sur le long terme. L’emploi d’un schéma numérique insuffisamment développé ou trop basique peut se révéler être pénalisant dans la mesure où le référencement d’un site ou d’une page internet est limité.

Les métadonnées et le RGPD

Enfin, lorsque l’on parle de données, la notion de RGPD y est souvent associée. Dans un système de gestion de données, se trouvent souvent des données à caractère personnel dans les documents. Les métadonnées constituent le point d’entrée pour des requêtes qui ont pour but de retrouver les documents dont une société a besoin.

Ainsi, les entreprises devant à présent se concentrer sur la gouvernance des données, la CNIL surveille deux cas d’usage après le traitement de ces données et métadonnées grâce à la mise en place du Règlement Général sur la Protection des Données (RGPD) :

  • En cas de conservation et d’archivage de tous les documents et métadonnées rattachées sans limite de durée, la CNIL attend des organisations une communication de données personnelles que celles-ci ne peuvent porter préjudice à personne, en plus de la valeur historique de leurs documents archivés. Ainsi, les fichiers peuvent être accessibles par un public cible sans que les personnes faisant l’objet du traitement de données ne soient inquiétées.
  • En cas de destruction de documents et métadonnées qui gravitent autour d’eux, lorsque ceux-ci ont une durée de vie limitée au sein d’une organisation, la CNIL exige que leur conservation corresponde à la durée de traitement requise pour l’activité exercée par les personnes qui en font usage. A l’issue de cette période de traitement, le Délégué à la protection des données conseille de détruire les documents et métadonnées recensant des informations à caractère personnel et de n’en conserver aucune trace pour qu’elles ne soient pas utilisées dans le cadre d’une finalité différente.

Vous l’aurez compris, la metadata facilite les analyses croisées dans la gouvernance d'entreprise grâce à ses nombreux avantages. Découvrez et essayez gratuitement nos outils Talend pour améliorer l’intégrité et la gouvernance de vos données et utiliser les metadata à bon escient.

Prêt à faire vos premiers pas avec Talend ?