Tout savoir sur la modélisation hybride Data Vault

Pour mettre vos stratégies en œuvre de manière optimale, vous devez identifier les éventuels problèmes actuels et utiliser les bons outils. Les méthodologies qui en résultent deviennent le catalyseur de l’innovation et vous amènent à des réalisations d’un niveau supérieur.

Utiliser et savoir mettre en œuvre une méthodologie de modélisation de données moderne et performante est une priorité pour garantir la réussite des implémentations à venir. Persister avec des méthodes et systèmes obsolètes serait complètement contreproductif et pourrait nuire à votre organisation.

Il vous faut alors adopter des procédés modernes et efficients qui vous offre la possibilité de créer facilement des modèles de données adaptés et adaptables afin de dynamiser votre data warehouse. Cette solution, c’est le Data Vault !

Dans cet article, on vous dit tout sur le Data Vault (DV), ses origines et ses bénéfices pour votre organisation.

Qu’est-ce que le Data Vault ?

Origines

Le concept de Data Vault a été créé dans les années 1990 par Dan Linstedt qui s’est inspiré du réseau neuronal et de son fonctionnement. Mais ce n’est qu’une dizaine d’années plus tard, au début des années 2000, qu’il fait paraitre les premières publications sur cette modélisation, et notamment dans l’ouvrage « The Data Administration Newsletter » paru en 2002. Mais alors, qu’est-ce que le DV

Définition

Le Data Vault est une méthodologie de modélisation de données qui se situe entre la méthode 3FN (3ème Forme Normale) et les formes dénormalisées issues du monde de la Business Intelligence et de l’informatique décisionnel.

Alors que cette technique est couramment utilisée aux États-Unis depuis longtemps, elle était jusqu’alors très peu répandue en France et en Europe car elle son fonctionnement et ses bénéfices métiers ont eu du mal à être été compris. En effet, elle n’apporte pas une innovation révolutionnaire mais en combinant les meilleurs aspects de chaque type de modélisation, elle offre une réelle opportunité aux entreprises dans la gestion de leurs données.

Concrètement, le système Data Vault est à mi-chemin entre l’approche Inmon de modélisation d’entrepôts de données d’entreprise (EDW) par sujet et normalisée et l’approche de modélisation en étoile Kimball.

Les composantes du Data Vault

Cette nouvelle approche est composée de trois types d’entités techniques qui s’apparentes à des éléments du réseau neuronal :

  • les hubs (équivalent des noyaux neuronaux) : ce sont les objets métiers, en bleu sur le schéma ci-dessous
  • les liens ou links (équivalent des synapses) : ils assurent le lien entre les différents hubs, en vert sur le schéma
  • les satellites ou SAT (équivalent des dendrites neuronales) : ils renferment les attributs des objets métiers, en jaune sur le schéma

Voici une explication plus détaillée de chacun des éléments qui composent le Data Vault.

Le hub

Les hubs contiennent une liste de clés métier (ou BK pour Business Key) uniques ayant leur propre clé de substitution. Les métadonnées décrivant l'origine de la clé métier, ou « source » de l'enregistrement, sont également stockées pour suivre d’où les données proviennent et à quel moment elles arrivent.

Les links

Les liens ou links établissement les relations entre les objets métiers Ils sont souvent utilisés pour gérer les changements dans la granularité des données, ce qui réduit l'impact de l'ajout d'une nouvelle clé métier à un hub lié.

Les satellites

Là où les hubs et les liens forment la structure du modèle de données DV, les satellites contiennent des attributs temporels et descriptifs, y compris des métadonnées qui les relient à leurs tables Hub ou Link parentes.

Les attributs de métadonnées dans une table satellite renferment une date à laquelle l'enregistrement est devenu valide et une date à laquelle il a expiré. Cet élément fournit ainsi de puissantes capacités historiques permettant de formuler des requêtes portant sur l’évolution et les changements.

Les bénéfices du Data Vault pour les organisations

Le Data Vault est une méthodologie de modélisation de données hybride fournissant une représentation des données historiques à partir de plusieurs sources conçues pour être résilientes aux changements environnementaux.

«Ce n'est pas la plus forte des espèces qui survit, ni la plus intelligente qui survit. C'est celui qui est le plus adaptable au changement. » Charles Darwin

Axé sur le processus métier, le Data Vault en tant qu'architecture d'intégration de données, dispose de normes robustes et de méthodes de définition qui unissent les informations afin de leur donner un sens et de les rendre exploitables dans l’entreprise.

Evolutivité et flexibilité

Grâce à la séparation des clés métier (généralement statiques) et la présence de liens entre elles avec leurs attributs descriptifs, un Data Vault se confronte au problème du changement dans l'environnement.

Les hubs, links et satellites prennent en charge une structure de données hautement adaptable tout en maintenant un haut degré d'intégrité des données. Ainsi, le Data Vault résout le problème de résistance aux changements des systèmes de modélisations plus classiques.

La prise en charge du Big Data et des volumes de données importants

Le Data Vault 2.0 a fait son apparition en 2013 pour gérer l’intégration des technologies Big Data de manière transparente ainsi que des méthodologies plus modernes. Grâce à cette adaptation, de très grandes quantités de données peuvent facilement être incorporées dans un Data Vault de stockage à l'aide de solutions comme Hadoop, Infobright, MongoDB et de nombreuses autres options NoSQL.

En éliminant les exigences de nettoyage d'une conception de schéma en étoile, le Data Vault excelle dans le traitement d'énormes ensembles de données et réduit les temps d'ingestion en permettant des insertions parallèles qui tirent parti de la puissance des systèmes Big Data.

Simplification des processus d’intégration et d’ingestion

La création d'un modèle Data Vault efficace et efficient peut être réalisée rapidement une fois que vous avez compris les bases des 3 types de tables : Hub, Satellite et Link.

Identifier la définition des hubs et des BK est toujours le meilleur point de départ. À partir de là, les Hub-Satellites représentent les colonnes de la table source qui peuvent changer. Les liens assurent ensuite les relations de tout l’ensemble.

N'oubliez pas qu'il est également possible d'avoir des tables Link-Satellite. Une fois que vous avez ces concepts. Lorsque vous avez terminé votre modèle DV, créez le processus d'intégration de données ETL pour le remplir. Bien qu'un modèle de données Data Vault ne se limite pas aux solutions EDW normalisée et BI dénormalisée, chaque fois que vous avez besoin d'extraire des données d'une source vers une cible, un processus d'intégration de données est généralement nécessaire.

Avec sa suite de logiciels d'intégration, Talend simplifie le processus de développement, réduit la courbe d'apprentissage et diminue le coût total de possession avec une plateforme ETL unifiée, ouverte et prévisible. Grâce à sa technologie ETL éprouvée, Talend peut être utilisé pour alimenter et maintenir un système EDW / BI robuste basé sur un modèle de données Data Vault.

Auditabilité et traçabilité

Le Data Vault définit la vision d'une entreprise en ce qu'il décrit le domaine métier et les relations qu'il contient. Toutes les données sont pertinentes, même si elles sont erronées. Dan Linstedt suggère que les données erronées sont un problème commercial et non technique. Mais un EDW n'est vraiment pas le bon endroit pour corriger et nettoyer les anomalies et incohérences dans les données.

Le principe simple du Data Vault est d'ingérer 100% des données source 100% du temps. Importantes dans le monde d'aujourd'hui, l'auditabilité et la traçabilité de toutes les données de l'entrepôt de données deviennent ainsi une exigence standard. Ce modèle de données est conçu spécifiquement pour répondre aux besoins des systèmes EDW / BI actuels concernant la qualité et le nettoyage des data.

Souplesse et adaptabilité

La méthodologie Data Vault est basée sur les meilleures pratiques SEI (Software Engineering Institute) / CMMI (Capability Maturity Model Integration) niveau 5 et comprend plusieurs de ses composants en les combinant avec les meilleures pratiques de Six Sigma, TQM et SDLC (Agile).

Les projets Data Vault ont des cycles de publication contrôlés et courts et peuvent consister en une version de production toutes les 2 ou 3 semaines adoptant automatiquement les projets répétables, cohérents et mesurables attendus au niveau CMMI 5. Lorsque de nouvelles sources de données doivent être ajoutées, de nouveaux Hubs-Satellites-Links peuvent être ajoutés, puis liés aux structures DV existantes sans aucune modification du modèle de données existant.

Pour résumer, en combinant les avantages de l’approche normalisée et de l’approche dénormalisée, le Data Vault cumule de nombreux avantages profitables aux organisations, à savoir :

  • Une adaptabilité aux besoins métiers des entreprises
  • Une ingestion des données simplifiée
  • Une lisibilité du modèle et un nettoyage facilités
  • Une évolutivité et une flexibilité accrues par rapport aux modèles classiques car il permet facilement l’ajout de nouvelles sources de données sans perturber le schéma existant
  • Une absorption rapide de volumes de data importants dans l’entrepôt de données de l’entreprise

Les limites du Data Vault

Un des éléments fondamentaux de la mise en place d’une modélisation Data Vault réside dans la détermination des clés métiers et le fait d’assurer leur constance et leur stabilité dans l’ensemble des processus et des systèmes sources considérés. La définition de chaque clé métier, et de ses attributs, doit être uniformisée et partagée dans tous les processus de la structure commerciale.

Cependant, les besoins métiers étant différents d’un poste à un autre, cette uniformisation et ce caractère stable peuvent se révéler difficiles à déterminer. En effet, les différents acteurs doivent tomber d’accord sur la définition d’une clé unique et commune pour tous.

Or, pour arriver à une définition de BK unifiée et satisfaisante pour l’entreprise, les différents collaborateurs impliqués doivent avoir une vision commune et se baser sur des données de qualité. Sans qualité des data garantie (pas d’erreur, pas de doublon, etc.), il devient très difficile de s’entendre sur définition de la clé.

Comment réussir la mise en place d’un projet Data Vault ?

Comme mentionné ci-dessus, la difficulté majeure réside dans la transcription des besoins de l’organisation. Les principaux points clés à prendre en compte pour assurer le succès d’un projet reposant sur le Data Vault résident donc dans la capacité à refléter le métier dans le système.

Pour réussir son projet DV, il faut veiller à impliquer les acteurs métiers dans la phase de réflexion et d’étude des besoins analytiques et faire en sorte qu’ils soient disponibles pour expliquer leurs attentes concernant les processus opérationnels. Avoir une compréhension approfondie des analyses souhaitées à terme est primordial.

Il faut également pouvoir analyser ces processus opérationnels pour identifier et comprendre, au-delà des objets métiers mis en œuvre, les systèmes sources impliqués ainsi que l’implémentation de ces objets, les systèmes sources et l’acheminement des données de chaque objet dans le système d’information SI central de l’entreprise.

Après avoir effectué les tâches précédentes, il vous faut accomplir le point crucial : définir une vision unique des clés métiers requis d’un point de vue transverse à l’organisation. N’hésitez pas pour cela à challenger les différents acteurs présents dans la construction du projet pour trouver la meilleure solution pour l’ensemble de la structure. A ce stade, il s’agit d’établir les bases du projet de modélisation DV : déterminer les clés métiers et les attributs des différents objets.

Vous pouvez ensuite vous atteler à déterminer des transformations simples autour de règles métiers transverses et programmer des processus de conformité pour la qualité des données pour le passage de la couche « Raw Data Vault » à la couche « Business Data Vault ».

Enfin, pour parfaire votre système de modélisation DV, vous pouvez effectuer deux optimisations supplémentaires, non obligatoires, mais qui vont permettre d’améliorer les performances techniques lors du traitement d’ensemble de données volumineux. A savoir :

  • Le découpage des Satellites
  • La définition des structures additionnelles pour accélérer la sortie des data.

Avec Talend, vous pouvez faciliter l’implémentation de votre Data Vault dans votre entreprise et profiter de tous les avantages de cette solution de modélisation des données pour optimiser vos performances business. Essayez notre solution gratuitement dès maintenant.

Prêt à faire vos premiers pas avec Talend ?