Analyse de données : la qualité avant tout

Sur le chemin difficile de la valorisation des données, l’analyse n’est que l’aboutissement du voyage. Pour y parvenir, encore faut-il avoir passé avec succès les étapes de collecte, de préparation et de gouvernance.

23 zetaoctets. Un chiffre dont on peine à prendre la pleine mesure. Il vous faudra pas moins de vingt-et-un zéros pour le convertir en octets. 23 Zo, c’est le volume considérable de données générées par les entreprises dans le monde en 2019. Et c’est un volume qui ne se contente pas de croître. Il explose. En 2024, ce total devrait dépasser 75 Zo, soit une augmentation annuelle moyenne de 26 %. La question qui se pose est évidente : que faire de ces gigantesques quantités d’informations?

Actuellement, selon les enquêtes réalisées par IDC, deux tiers des entreprises exploitent moins de la moitié des données dont elles disposent en interne. La moitié d’entre elles estime moyennes, mauvaises voire très mauvaises ses capacités d’identification, d’accès unifiée ou encore de traçabilité de la donnée. « Il y a un grand challenge dans la valorisation des données, constate Thierry Hamelin, Research Director chez IDC. D’année en année, on constate à travers nos études que les opérations de collecte et de préparation des données sont de plus en plus chronophages. Aujourd’hui, elles représentent 67 % du temps consacré à la donnée, quand le temps consacré à l’analyse a diminué de 35 % en l’espace de deux ans, pour ne plus représenter aujourd’hui que 12 % des efforts ». Autrement dit, plus les volumes augmentent, plus la partie la plus importante du projet, celle qui va révéler la valeur de la donnée et pour laquelle les entreprises se sont engagées dans cette fois, est étouffée par le poids de la data. Autre preuve de la difficulté des organisations à maîtriser ce raz-de-marée d’informations, la moitié des opérations consacrées aux données se soldent par un échec.

Une information, plusieurs interprétations

Plusieurs obstacles se dressent en travers du chemin de la donnée, à commencer par celui de l’outillage. « La donnée est un minerai dont on n’exploite qu’une infirme partie de la valeur, regrette le Directeur de la sécurité numérique d’une société française de transports. Nous devons améliorer les traitements et avons besoin d’outils pour cela. L’intelligence artificielle par exemple pourrait être en mesure d’analyser une telle masse de données pour en tirer la quintessence ». « Nous sommes aux prémices d’un déferlement de données industrielles et devons mettre cette donnée à disposition des collaborateurs, approuve le Responsable de l’architecture du système d’information d’un groupe minier. Mais il existe de nombreux acteurs sur le marché. Comment identifier les bonnes solutions et déterminer laquelle va prendre en charge quel maillon de la chaîne ? ». Face à des données déjà extrêmement fragmentées, les organisations cherchent un point d’ancrage central. « Nous avons créé un framework doté de plus de 1 000 connecteurs pour aller chercher la donnée partout où elle est stockée, répond Jacques Padioleau, Vice-président Europe du Sud de Talend, puis de la travailler avant de la partager ».

Quickly find, clean, and share dataLa collecte n’est effectivement qu’une partie du problème. Car si la donnée est dispersée, elle est également très hétérogène. Analyser et faire des recoupements entre différents jeux de données implique de les doter d’une structure commune. « Nous nous battons pour harmoniser la donnée et lui donner de la cohérence, témoigne le DSI d’une société industrielle. Chaque outil, chaque personne, peut porter un regard différent sur la même donnée et il est impératif de développer un langage commun si on souhaite en tirer des enseignements exploitables. » Un travail doit donc être effectué sur la qualité de la donnée, et ce travail passe par la définition de règles de gouvernance. Chez cet acteur français de l’énergie, la responsabilité est partagée de manière à faciliter la prise en charge des importants volumes à gouverner. « Mon rôle est de piloter la transformation mondiale du groupe et je m’appuie pour cela sur un réseau de 30 Chief Data Officers, dont chacun est responsable de la gouvernance et de la qualité sur son périmètre », explique le CDO du groupe. Une méthodologie ouverte qui a permis de développer près de 250 cas d’usage en seulement deux ans.

La donnée entre ouverture et verrouillage

L’exploitation efficace de la donnée passe par une approche collaborative et pluridisciplinaire. Les utilisateurs métier ne peuvent concrétiser leurs scénarios d’utilisation sans passer par les équipes IT dont la maîtrise de la donnée est indispensable. « Nous avons exploré différentes approches en matière de gouvernance, et notre conclusion est claire : si IT et métier avancent séparément, cela ne marche jamais, certifie la Directrice de la gouvernance de l’information d’une société du secteur de la santé. L’usage correspond évidemment à une vision métier, mais sans l’aspect infrastructure en parallèle, il n’y a pas de succès possible ». Les projets de type Master Data Management ou Metadata Repository peuvent permettre de créer des ponts entre les deux mondes. « Il ne faut pas seulement des outils pour les techniciens, insiste néanmoins Jean-Michel Franco, Directeur marketing produit de Talend, mais aussi des outils automatisés à même de combler le fossé entre ceux qui traitent la donnée et ceux qui utilisent l’information. »

Bien entendu, l’expertise de l’IT sera également extrêmement précieuse pour toutes les questions liées à la sécurité et notamment à l’utilisation des données à caractère personnelle. « Nous gérons des données de santé et nos traitements doivent donc être conformes au RGPD », note l’architecte d’une collectivité territoriale. « Nous avons de grands projets big data visant à exploiter les données des clients pour offrir des services sur mesure, étaye le RSSI de cette compagnie de transports, mais nous devons le faire dans le respect de la réglementation d’une part, et des engagements pris vis-à-vis de nos clients d’autre part. Ces derniers ne partageront leurs données que s’ils se sentent en confiance et c’est à nous de gagner cette confiance par des processus à la fois robustes et transparents. » Ouvrir davantage l’accès aux données, tout en verrouillant au maximum les portes que des pirates pourraient être tentés d’emprunter ; un exercice d’équilibriste périlleux mais indispensable pour parvenir enfin à jongler avec les zettaoctets, sans en faire chuter un seul.

 

 

Participer aux discussions

0 Comments

Leave a Reply