Tout savoir sur les Data Marts et leur fonctionnement

Dans un marché dominé par les big data (dont le volume augmente chaque jour), les data marts sont une des clés qui permettent de transformer efficacement les données en connaissance exploitable. En général, les data warehouses traitent des datasets volumineux, mais leurs fonctionnalités d'analyse des données doivent être agiles. Les data marts permettent aux entreprises intelligentes de faire les deux (volume/agilité).

Définition du data mart

Un « data mart » est une base de données dont le contenu est en rapport avec une activité de l'entreprise et qui est créée pour répondre aux besoins spécifiques d'un groupe d'utilisateurs. Il s'agit souvent (mais pas toujours) d'un segment partitionné dans le data warehouse de l'entreprise. Les data marts accélèrent les processus en permettant de définir un accès aux données stockées dans un data warehouse (ou autre gisement de données opérationnelles) en quelques jours au lieu de plusieurs mois ou plus. Il s'agit d'une solution peu coûteuse qui permet de transformer les données en connaissance exploitable.

Data mart vs data warehouse

Les data marts et les data warehouses sont des référentiels dans lesquels les données sont stockées et mises à jour jusqu'à ce qu'un utilisateur en ait besoin dans le cadre de ses activités. La principale différence entre ces deux types de gisement de données est la suivante : les warehouses sont prévus pour contenir l'intégralité des données d'une entreprise, alors qu'un data mart répondra seulement aux besoins d'un département donné ou d'une fonction commerciale spécifique. Le but premier du data mart est d'extraire un sous-ensemble de données d'un gisement beaucoup plus volumineux.

Un data mart peut être créé à partir d'un data warehouse existant (on parle alors d'« approche descendante » ou « top-down »), ou à partir d'autres sources, telles que des systèmes opérationnels internes ou des données externes. Tout comme le data warehouse, le data mart est une base de données relationnelles qui stocke des données transactionnelles (valeur temporelle, ordre numérique, référence à un ou plusieurs objets, etc.) en colonnes et en lignes, ce qui permet de les structurer et les consulter très facilement.

Si les besoins de l'entreprise l'exigent, plusieurs data marts peuvent être fusionnés pour créer un seul data warehouse (on parle alors d'« approche ascendante » ou « bottom-up»),

Data mart Data warehouse
Taille

< 100 Go 100 Go +
Objet Un seul objet Plusieurs objets
Portée Un seul département Entreprise globale
Sources de données Nombre limité Nombre élevé
Intégration des données Un seul objet Toutes les données de l'entreprise
Temps d'implémentation Minutes, semaines ou mois De plusieurs mois à plusieurs années

Différents types de data mart

Il existe trois types de data mart : dépendant, indépendant et hybride. Le type du data mart dépend de sa relation avec le data warehouse et de la source de données utilisée pour le créer.

1. Data mart dépendant

Un data mart dépendant est créé à partir d'un data warehouse qui existe déjà dans l'entreprise. Il s'agit d'une approche descendante qui commence par le stockage de l'intégralité des données de l'entreprise dans un gisement central et qui extrait de ce gisement une partie clairement définie des données lorsqu'une analyse est nécessaire.

Pour créer un data mart à partir d'un data warehouse, un ensemble spécifique de données est extrait du data warehouse. Ces données sont agrégées en cluster, restructurées selon besoin et chargées dans le data mart où elles peuvent ensuite être consultées directement. Il peut s'agir d'une vue logique ou d'un sous-ensemble physique du data warehouse :

  • Vue logique – table virtuelle qui ne fait pas partie du schéma physique de la base de données.
  • Sous-ensemble physique – ensemble de données qui font partie du schéma de la base de données.

Les « données granulaires » (le niveau de données le plus bas des données à extraire du data warehouse) servent de point de référence pour tous les data marts dépendants qui seront créés par la suite.

2. Data mart indépendant

Un data mart indépendant est un gisement de données autonome (créé sans partir d'un data warehouse préexistant) dont les données sont en rapport avec un des domaines ou une des activités de l'entreprise. Les données sont extraites de sources de données internes ou/et externes, traitées et chargées dans le data mart où elles sont stockées jusqu'à ce qu'elles soient nécessaires pour une analyse.

La conception et le développement des data marts indépendants sont des opérations très difficiles. Les data marts indépendants facilitent la réalisation d'objectifs certains à court terme, mais ils peuvent devenir lourds à gérer compte tenu du fait que chacun d'entre eux utilise ses propres outils ETL et des algorithmes spécifiques, surtout si les besoins de l'entreprise augmentent et qu'ils deviennent plus complexes.

3. Data mart hybride

Un data mart hybride combine les données d'un data warehouse existant et d'autres sources de données opérationnelles. Il allie les avantages de l'approche descendante (vitesse et accès facile pour les utilisateurs) et les avantages de l'approche ascendante à l'échelle de l'entreprise.

Structure d'un data mart

Un data mart peut être structuré selon différents types de schéma : étoile, flocon de neige, Data Vault ou autre. Les équipes IT utilisent généralement un schéma en étoile composé d'une ou plusieurs tables de faits d'une base de données relationnelles (par exemple, ensemble d'indicateurs relatifs à un processus ou événement spécifique) qui font référence à des tables de dimensions (clé primaire jointe à une table de faits) de cette même base de données.

L'avantage d'un schéma en étoile est qu'un moins grand nombre de jointures sont nécessaires lors de l'écriture des requêtes, car il n'existe aucune dépendance entre les dimensions. Cette configuration simplifie le processus des requêtes ETL, ce qui a pour effet de faciliter l'accès et la navigation pour les analystes.

Dans un schéma en flocon de neige, les dimensions ne sont pas clairement définies, mais elles sont normalisées pour réduire la redondance des données et protéger l'intégrité des données. La structure en flocon de neige exige moins d'espace pour stocker les tables de dimensions, mais elle est beaucoup plus complexe (plusieurs tables à remplir et à synchroniser), et sa maintenance/actualisation peut être difficile.

Avantages du data mart

La gestion des big data – et l'acquisition de connaissances exploitables qui en découle – est un défi auquel toutes les entreprises sont confrontées, et auquel la plupart d'entre elles répondent en multipliant les data marts stratégiques.

  • Accès efficace – Un data mart est une solution qui permet de gagner du temps pour accéder à un ensemble spécifique de données à utiliser dans le domaine de la Business Intelligence.   
  • Alternative peu coûteuse au data warehouse – Les data marts peuvent également être une alternative peu coûteuse au développement d'un data warehouse pour une entreprise dans laquelle les datasets requis sont peu volumineux. Un data mart indépendant peut être opérationnel en moins d'une semaine.   
  • Améliorer les performances du data warehouse – Les data marts de type dépendant et hybride peuvent améliorer les performances d'un data warehouse en traitant une partie de la charge de travail correspondant aux besoins de l'analyste demandeur. Lorsque des data marts dépendants sont installés dans un bâtiment distinct de celui du data warehouse, ils peuvent réduire considérablement les coûts du traitement analytique.

Autres avantages du data mart :

  • Maintenance des données – différents départements peuvent être propriétaires et contrôleurs de leurs propres données.
  • Configuration très simples – la conception très simple des data marts exige moins de compétences techniques pour leur configuration.
  • Analytique – le suivi des indicateurs KPI est très facile.
  • Point d'entrée idéal – les data marts peuvent être les gisements de base d'un futur projet de data warehouse d'entreprise.

L'avenir des data marts est dans le cloud

Malgré les grandes qualités de souplesse et d'efficacité des data marts, les big data sont souvent trop volumineuses pour certaines solutions on-premises. Tout comme les data warehouses et les data lakes, qui migrent de plus en plus souvent vers le cloud, les data marts vont sans doute prendre le même chemin.

Avec une plate-forme partagée en cloud pour créer et héberger des données, l'accès et l'analytique deviennent beaucoup plus efficaces. Des clusters de données transitoires peuvent être définis pour l'analytique à court terme, mais il est également possible de grouper plusieurs clusters à longue durée de vie pour des tâches plus exigeantes.

Les data marts dépendants et hybrides en cloud présentent de nombreux autres avantages, en particulier :

  • Architecture flexible avec des applications natives en cloud.
  • Gisement unique contenant tous les data marts.
  • Ressources consommées à la demande.
  • Accès immédiat et en temps réel aux données.
  • Meilleure efficacité.
  • Consolidation des ressources pour une réduction des coûts.
  • Analytique interactif en temps réel.

Les moteurs d'analytique tels que Apache Spark et Hadoop Hive permettent de développer et déployer des data marts en quelques minutes. Des fonctions avancées d'analytique en temps réel, de machine learning et autres sont intégrées à la plate-forme, ce qui élimine la nécessité de développer des systèmes propriétaires.

Premiers pas avec un data mart

On dit souvent que les data warehouses garantissent la fiabilité et l'homogénéité des données de l'entreprise. Un data mart peut également présenter une partie de cette garantie pour des besoins spécifiques.

Les entreprises sont confrontées à des volumes considérables de données et à un besoin en constante évolution de décomposer ces données en datasets faciles à gérer, analyser et comprendre. Les data marts en cloud proposent une solution évolutive et à long terme. Talend Data Management Platform aide vos équipes à travailler plus intelligemment grâce à une architecture ouverte et évolutive et à des outils graphiques simples qui permettent de déployer vos jobs d'intégration plus rapidement et complètement.

Avec Talend Open Studio for Big Data, quelques minutes suffisent pour créer un data mart Hive. Découvrez comment dès aujourd'hui ! Découvrez également comment simplifier les tâches ETL de votre analytique big data avec la puissance et capacité d'évolution des bases de données Hadoop et NoSQL.

Prêt à faire vos premiers pas avec Talend ?