Présentation de Talend Data Catalog : créer une source unique de données fiables

Vous vous souvenez à quel point Internet a révolutionné la création de contenu ? C’est devenu si facile et si peu cher que tout le monde s’est mis à créer du contenu. L’économie des données en est actuellement au même stade.

La problématique d’Internet n’était pas le manque de contenu intéressant, mais la difficulté à trouver ce contenu. Après deux décennies, nous savons aujourd’hui que les grands gagnants de l’économie web sont ceux qui ont créé un point d’accès unique au contenu dans leur catégorie : Google, YouTube, Baidu, Amazon ou Wikipedia.

Nous connaissons actuellement une expansion des données similaire dans notre économie fortement dépendante des données. Selon une étude IDC, les professionnels des données consacrent actuellement 81 % de leur temps à rechercher, à préparer et à protéger les données, ce qui ne leur laisse que peu de temps pour transformer ces données en résultats commerciaux tangibles. Pour rejoindre le camp des gagnants, il est crucial pour les organisations de parvenir à créer une source unique d’accès à leurs données.

La technologie peut certes aider à résoudre le problème, j’y reviendrai d’ailleurs plus tard dans cet article. Cependant, les entreprises doivent aussi mettre en place une discipline d’organisation de leurs données à grande échelle : c’est ce qu’on appelle la gouvernance de données. Mais cette gouvernance traditionnelle doit être réinventée pour s’adapter à l’expansion des données. Selon une étude Gartner, « d’ici 2022, 20 % seulement des organisations ayant investi dans les informations parviendront à faire évoluer la gouvernance pour le marché numérique. » Ce pourcentage est bien trop faible au regard du nombre de sociétés qui croulent sous les données.

L’objectif de la gouvernance de données moderne n’est pas simplement de réduire les risques liés aux données, mais également d’augmenter l’utilisation des données. C’est pourquoi les approches traditionnelles autoritaires de la gouvernance de données ne suffisent pas. Une approche ascendante, plus agile est indispensable. Ce type de stratégie commence par les données brutes, relie les données au contexte de l’entreprise afin de leur donner du sens, contrôle leur qualité et leur sécurité, et les organise parfaitement, afin qu’elles soient prêtes pour une consommation massive.

Un catalogue de données est indispensable

Les catalogues de données se targuent de pouvoir mettre en œuvre cette nouvelle discipline, en tirant parti des technologies modernes telles que la sémantique intelligente et le machine learning pour organiser les données à grande échelle, et en transformant la gouvernance de données en sport d’équipe par la participation de tous à la curation du contenu.

Grâce à la nouvelle application Talend Data Catalog, les sociétés peuvent organiser leurs données à grande échelle pour y accéder facilement et faire face à tous les défis. En permettant aux entreprises de créer une source unique de données fiables, cette solution bénéficie aussi bien aux sociétés, qui peuvent trouver les bonnes données, qu’aux DSI et directeurs des données, qui peuvent mieux contrôler les données pour améliorer leur gouvernance. Découvrons Talend Data Catalog plus en détail.

Découverte de données intelligente

Les catalogues de données sont parfaits pour les sociétés qui ont modernisé leurs infrastructures de données avec des data lakes ou des data warehouses basés dans le cloud, où des milliers d’éléments de données brutes sont disponibles et accessibles à grande échelle. Le catalogue permet de trouver les bonnes données dans ces gisements, en utilisant les robots d’exploration sur différents systèmes de fichiers (traditionnels, Hadoop ou cloud) et formats de fichiers. Il extrait ensuite automatiquement les métadonnées et informations de profilage, pour le référencement, la gestion des modifications, la classification et l’accessibilité.

Non seulement un catalogue regroupe toutes les métadonnées, mais il peut également automatiquement créer des liens entre les datasets et les connecter à un glossaire métier. En résumé, il permet aux entreprises :

  • d’automatiser l’inventaire des données ;
  • d’exploiter la sémantique intelligente pour l’auto-profilage, la découverte de relations et la classification ;
  • de documenter et d’encourager l’utilisation, car les données ont été enrichies et sont plus pertinentes.

L’objectif d’un catalogue de données est de libérer les données de l’application où elles résident.

Orchestrer la curation de données

Une fois que les données ont été automatiquement collectées et regroupées, la gouvernance de données peut être orchestrée beaucoup plus efficacement. Talend Data Catalog permet aux entreprises de définir les éléments de données critiques dans leur glossaire métier et d’attribuer des propriétaires à ces éléments. L’application relie ensuite ces éléments de données critiques aux points de données qui y font référence dans le système d’information.

Les données sont alors maîtrisées et les propriétaires de données peuvent s’assurer que leurs données sont correctement documentées et protégées. Des commentaires, des avertissements ou une validation peuvent être ajoutés par tout utilisateur de la société en mode participatif, pour une gouvernance des données ascendante. Enfin, le catalogue de données retrace l’historique complet des données et gère le contrôle des versions. Il garantit l’exactitude des données et offre une vision d’ensemble de la chaîne d’informations, deux critères essentiels pour la gouvernance et la conformité des données.

Un accès facile à des données fiables grâce à la recherche

Avec Talend Data Catalog, les entreprises peuvent localiser, comprendre, utiliser et partager leurs données fiables plus rapidement, en recherchant et en vérifiant la validité de leurs données avant de les partager. Son expérience utilisateur collaborative permet à quiconque d’apporter sa contribution aux métadonnées ou au glossaire métier.

La gouvernance de données est très souvent associée au contrôle. C’est en effet une discipline qui permet aux entreprises de collecter, traiter et consommer des données de manière centralisée selon certaines règles et politiques. La magie de Talend Data Catalog, c’est que cette solution ne fait pas que contrôler les données : elle les libère également pour qu’elles puissent être utilisées. Les professionnels des données peuvent ainsi trouver, comprendre et partager les données dix fois plus vite. Les data engineers, data scientists et analystes, ou même les développeurs, peuvent prendre le temps d’extraire de la valeur des datasets, plutôt que de chercher des données ou de créer des datasets, et ainsi exploiter au mieux votre data lake.

Un récent rapport IDC, « Data Intelligence Software for Data Governance » (Logiciels de Data Intelligence pour la gouvernance de données) vante les mérites de la gouvernance de données moderne et définit le catalogue de données comme la pierre angulaire des logiciels de Data Intelligence. Dans ce rapport, IDC donne la définition suivante :« la technologie qui permet l’activation par la gouvernance est appelée Data Intelligence et est offerte par des logiciels de gestion des métadonnées, d’historique des données, de catalogue des données, de glossaire métier, de profilage des données, de contrôle et d’intendance des données. »

Pour en savoir plus, découvrez toutes les fonctionnalités de Talend Data Catalog ou regardez la vidéo d’introduction à Talend Data Catalog.

Participer aux discussions

0 Comments

Leave a Reply