L'avenir des big data

Au début du 21e siècle, l'explosion des bases de données relationnelles, de l'accès au Web, du sans fil et d'autres technologies a fait de l'étude et de la gestion des grands datasets un défi réel et actuel qui nécessitait un nouvelle désignation. Le terme « big data » est entré dans l'édition 2013 du dictionnaire-référence Oxford English Dictionary (OED), mais ce terme a été utilisé depuis la Seconde Guerre mondiale pour traduire la notion d'exploitation de volumes de données considérables.

Les big data désignent essentiellement des datasets trop grands et trop complexes pour les applications traditionnelles de traitement des données et gestion des données.  Les big data sont devenues très populaires avec l'avènement des technologies mobile et de l'Internet des objets (IoT), et elles sont le résultat des activités des utilisateurs qui génèrent de plus en plus de données (géolocalisation, réseaux sociaux, applications de fitness ou d'achat, etc.) et qui accèdent à des données numériques sur leurs équipements mobiles au moins 150 fois par jour !

Il est également devenu le terme fourre-tout pour la collecte, l'analyse et l'exploitation de volumes considérables de données numériques en vue d'améliorer les opérations des entreprises. En même temps que le volume des datasets continue d'augmenter et que les applications sont de plus en plus souvent exigées en temps réel, les big data et leur traitement sont en train de migrer vers le cloud.

Pourquoi les big data sont-elles si importantes ?

Les consommateurs vivent dans un monde numérique où leurs attentes doivent être satisfaites im-mé-dia-te-ment. Qu'il s'agisse de transactions commerciales numériques ou de feedback et ciblage marketing, les activités en cloud évoluent très rapidement. Ces transactions nombreuses et rapides génèrent et compilent des données à un rythme effréné. L'exploitation de ces données en temps réel fait souvent la différence entre bénéficier de l'information nécessaire pour disposer d'une vue à 360° des consommateurs ciblés et perdre des clients au profit de concurrents qui analysent déjà couramment ce type d'information.

En matière de gestion et d'exploitation des opérations portant sur les données, les possibilités sont aussi infinies que... les risques potentiels. Voici quelques exemples des possibilités de transformation d'entreprise associées aux big data :

  • Business intelligence – Le terme Business Intelligence a été inventé pour décrire l'importation et l'analyse des big data et leur application dans les activités des entreprises. La Business Intelligence (BI) est une arme indispensable pour réussir sur des marchés de plus en plus concurrentiels. En suivant et prédisant l'activité et les points de défi, la Business Intelligence met les big data de l'entreprise au service de ses produits. 
  • Innovation – En raison de leur capacité à analyser la myriade d'interactions, de structures et d'anomalies qui se produisent dans un secteur et dans un marché, les big data facilitent la mise sur le marché de produits et d'outils nouveaux et créatifs. Imaginez que la société « Boissons d'avril » analyse ses big data et découvre que, pendant les mois d'été, l'article B enregistre près de deux fois plus de ventes que l'article A dans la région PACA, alors que les ventes de ces deux articles restent à peu près égales sur la côte Ouest et dans le Centre-Val de Loire. La société décide de développer un outil marketing pour publier des campagnes sur les médias sociaux et cibler les marchés de PACA avec des publicités soulignant la popularité et la disponibilité immédiate de l'article B. Autrement dit, la société tire parti de ses big data en proposant des produits nouveaux ou personnalisés et en diffusant des publicités qui maximisent ses profits potentiels.    
  • Réduction du TCO – Les économies sont aussi importantes que le chiffre d'affaires ? Les big data sont prêtes à vous le démontrer. Les professionnels de l’IT mesurent les opérations non pas en fonction du prix d'achat des équipements, mais de divers facteurs, dont les contrats annuels, les licences et les frais généraux du personnel. La connaissance obtenue à partir de opérations sur les big data peut rapidement se concrétiser dans les secteurs où les ressources sont sous-utilisées et dans les domaines qui exigent le plus d'attention. La disponibilité de ces différents types d'information permet aux dirigeants de prévoir des budgets suffisamment souples pour fonctionner dans un environnement modernisé.

Dans la plupart des secteurs, les entreprises et les marques utilisent les big data pour innover. Par exemple, les compagnies maritimes font confiance aux big data pour calculer les temps de transport et fixer leurs tarifs en conséquence. Les big data sont à l'origine de découvertes scientifiques et médicales révolutionnaires, car elles permettent de disposer d'une capacité d'analyse et d'étude d'une puissance jamais atteinte auparavant. Et cette évolution a également un impact sur notre vie quotidienne.

Big data – Cinq V +1

Les big data sont souvent décrites par cinq mots commençant par la lettre V. Chaque aspect lié à un V doit être abordé individuellement et en tenant compte de ses interactions avec les autres aspects.

Volume – Élaborer un plan pour les volumes de données à traiter, décrire le mode et l'emplacement de stockage de ces données.

Variété – Identifier les différentes sources de données exploitées dans l'écosystème considéré et s'équiper des outils qui permettront d'importer ces données efficacement.

Vitesse – Rappelons que la vitesse est un aspect essentiel des entreprises performantes. Identifier et déployer les technologies qui permettront de garantir que l'image des big data est développée aussi près que possible du temps réel.

Véracité – La qualité de sortie d'un traitement dépend étroitement de la qualité de son entrée (GIGO) : vous devez vous assurer que les données en entrée sont correctes et nettoyées.

Valeur – Toutes les données n'ont pas la même importance : vous devez donc créer un environnement de big data qui génère des informations de Business Intelligence exploitables et sous une forme facile à comprendre.

Et nous n'hésitons pas à citer un sixième V :

Vertu – Les considérations éthiques de l'utilisation des big data doivent également être prises en compte, à savoir connaître et respecter toutes les réglementations relatives à la conformité et confidentialité de ce type de données.

Analytique des big data et data lakes 

Les big data ne sont pas de nouvelles données, mais plutôt des données mises au service de nouveaux cas d'usage et de nouvelles idées. L'analytique des big data est le processus qui consiste à examiner de très gros datasets granulaires dans le but d'y découvrir des structures enfouies, des corrélations inconnues, les nouvelles tendances du marché, les préférences des clients et une nouvelle connaissance exploitable par l'entreprise. Les employés peuvent désormais formuler des requêtes qui n'étaient pas possibles auparavant avec les data warehouse traditionnels, dans la mesure où ceux-ci étaient limités au stockage de données agrégées.

Imaginez La Joconde limitée à de grossiers pixels : c'est à peu près la vue dont vous disposez sur vos clients dans un data warehouse. Pour disposer d'une vue à grain plus fin de vos clients, vous devez stocker des données fines, granulaires et présentées au niveau nanométrique sur ces clients et leur appliquer les processus de l'analytique des big data tels que le data mining ou le machine learning.

Un data lake est un emplacement de stockage centralisé qui contient des big data provenant de nombreuses sources sous un format brut et granulaire. Il peut stocker des données structurées, semi-structurées ou non structurées, ce qui signifie que les données peuvent être conservées sous des formats plus souples pour une utilisation ultérieure. Lorsqu'il importe les données, le data lake les associe à des identificateurs et des balises de métadonnées pour une récupération plus rapide. Avec les data lakes, les data scientists peuvent accéder aux données, les préparer et les analyser plus rapidement et avec une plus grande précision. Pour les spécialistes de l'analyse, ce vaste pool de données disponibles sous divers formats non traditionnels constitue une solution unique d'accès à l'information nécessaire à différents cas d'usage tels que la détection des fraudes ou l'analyse du sentiment des clients, consommateurs ou internautes.

Comment utiliser les big data 

Pour bien comprendre tout ce qui précède, il faut d'abord connaître les produits de base des big data : il s'agit généralement de Hadoop, MapReduce et Spark (trois produits développés dans le cadre des Apache Software Projects).

Hadoop est une solution logicielle open source conçue spécifiquement pour l'exploitation des big data. Les outils de Hadoop permettent de répartir la charge de traitement requise pour le traitement de datasets énormes sur quelques nœuds ou quelques centaines de milliers de nœuds de traitement distincts. Au lieu de déplacer un péta-octet de données vers un minuscule site de traitement, Hadoop fait l'inverse, ce qui a pour effet d'accélérer considérablement la vitesse de traitement des datasets.

MapReduce exécute deux fonctions : compiler et organiser (Map, mapper) les datasets, puis les réduire (Reduce) en datasets structurés et plus petits, prêts à répondre aux requêtes ou aux tâches internes de l'entreprise.

Spark est également un projet open source de la fondation Apache. Il s'agit d'un framework distribué ultra-rapide pour le traitement à grande échelle et le machine learning. Le moteur de traitement de Spark peut fonctionner sous la forme d'un système autonome, d'un service cloud ou en surcouche des systèmes distribués les plus répandus (par exemple, Kubernetes ou son propre prédécesseur : Apache Hadoop).

Ces outils et d'autres outils Apache sont sans doute les moyens les plus fiables pour tirer parti des big data dans votre entreprise.

L'essor et l'avenir des big data 

Avec l'explosion des technologies cloud, la nécessité de trouver une solution capable de traiter des volumes de données qui ne cessent d'augmenter est devenue une considération de premier ordre pour la conception des architectures numériques. Dans un monde où les transactions, l'inventaire et même l'infrastructure IT peuvent exister sous une forme purement virtuelle, une approche efficace des big data doit être capable de générer une vue holistique en important et traitant des données provenant d'un grand nombre de sources, notamment :

  • Logs des réseaux virtuels
  • Événements et modèles de sécurité
  • Répartition du trafic dans les réseaux
  • Détection et résolution des anomalies
  • Informations de conformité
  • Suivi du comportement et des préférences des clients
  • Données de géolocalisation
  • Données des canaux sociaux (pour le suivi du sentiment des utilisateurs vis-à-vis des marques)
  • Niveau des stocks et suivi des expéditions
  • Autres données spécifiques qui ont un impact sur les activités considérées

Les analyses des tendances des big data – même les plus prudentes – constatent en parallèle la réduction continue des infrastructures physiques sur site et l'adoption exponentielle des technologies de virtualisation. Cette évolution va s'accompagner d'une dépendance croissante vis-à-vis d'outils et de partenaires capables de gérer un nouvel univers dans lequel les machines sont remplacées par des bits et des octets qui simulent la réplique virtuelle de celles-ci.

Les big data ne sont pas seulement un aspect important de l'avenir, elles peuvent être l'avenir lui-même. L'approche adoptée par les entreprises et leur département IT va continuer d'être influencée par l'évolution de nos solutions de stockage, de déplacement et de compréhension des données.

Big data, cloud et traitement sans serveur 

Avant l'introduction des plates-formes cloud, l'intégralité de la gestion et du traitement se faisait sur site. Toutefois, avec l'émergence de plates-formes cloud telles que Microsoft Azure, Amazon AWS, Google Cloud et d'autres, les entreprises ont commencé à se ruer vers des solutions à base de clusters de big data gérés dans le cloud.

Cette évolution a rencontré de nombreuses difficultés, en particulier des cas d'utilisation inefficace, de sous-utilisation ou surutilisation en fonction des périodes. Pour se libérer des problèmes associés aux clusters gérés en cloud, la meilleure solution est « l'architecture sans serveur », qui présente les avantages suivants :

  • Payez uniquement pour les applications utilisées – La couche de stockage et la couche de traitement sont découplées : votre facturation sera limitée au temps de conservation des données dans la couche de stockage et au temps de traitement effectif.
  • Réduction du temps d’implémentation – Contrairement au déploiement d'un cluster géré qui peut prendre plusieurs heures ou plusieurs jours, l'installation d'une application de traitement des big data sans serveur ne prend que quelques minutes.
  • Tolérance aux incidents et disponibilité – Par défaut, une architecture sans serveur gérée par un prestataire de services cloud garantit des niveaux de tolérance aux incidents et une disponibilité spécifiés dans un contrat de niveau de service (SLA). Par ailleurs, ce type d'architecture n'a pas besoin d'administrateurs.
  • Évolution automatique – Des règles d'évolution automatique prédéfinies permettent de faire évoluer l'application en alignement étroit avec les charges de travail, ce qui permet de réduire considérablement les coûts de traitement.

Quelles doivent être les qualités d'un outil d'intégration des big data ?

Les outils spécialisés simplifient considérablement le processus d'intégration des big data. Les caractéristiques à rechercher dans un outil d'intégration des big data sont les suivantes :

  • Nombreux connecteurs – Il existe de nombreux systèmes et applications dans le monde : plus votre outil d'intégration des big data propose de connecteurs prédéfinis, plus votre équipe gagnera du temps.
  • Open source – Les architectures open source offrent généralement plus de flexibilité tout en aidant à éviter le provisionnement captif ; par ailleurs, l'écosystème des big data repose sur des technologies open source qu'il est conseillé d'adopter et d'utiliser.
  • Portabilité – À un moment où les entreprises adoptent de plus en plus des modèles de cloud hybride, il est important de pouvoir construire en une seule fois vos intégrations de big data et de les exécuter partout : sur site, dans le cloud ou en mode hybride.
  • Facilité d'emploi – Les outils d'intégration des big data doivent être faciles à maitriser et utiliser, par exemple avec une interface graphique qui facilite la visualisation de vos pipelines de big data.
  • Modèle de tarification transparent – Un fournisseur d'outils d'intégration des big data de confiance ne doit pas se permettre d'augmenter votre facturation chaque fois que vous ajoutez des connecteurs ou multipliez les volumes de données.
  • Compatibilité avec le cloud – Votre outil d'intégration des big data doit être capable de fonctionner en mode natif dans un environnement mono-cloud, multi-cloud ou hybride. Il doit également être capable de fonctionner dans des conteneurs et d'utiliser une architecture sans serveur de manière à minimiser le coût de traitement de vos big data et à payer uniquement ce que vous utilisez et non des serveurs en veille.
  • Qualité des données et gouvernance des données intégrées – Les big data proviennent généralement du monde extérieur et les données pertinentes doivent être agrégées et supervisées avant d'être communiquées aux utilisateurs de l'entreprise, faute de quoi la responsabilité de l'entreprise pourrait être largement engagée. Chaque fois que vous choisissez un outil ou une plate-forme pour vos big data, vérifiez qu'il (ou elle) intègre les fonctionnalités requises de qualité des données et gouvernance des données.

Talend et les big data

 Talend propose des outils performants pour l'intégration et le traitement de vos big data. En utilisant ces outils Talend pour l'intégration des big data, les ingénieurs IT peuvent réaliser les tâches d'intégration 10 fois plus rapidement que le codage manuel, et pour un coût très inférieur à celui de nos concurrents.

  • Mode natif – Les solutions Talend s'exécutent en mode natif sur les plates-formes cloud et big data. Elles génèrent du code natif qui peut s'exécuter directement dans le cloud, sans exiger de serveur ni de plate-forme big data et sans avoir besoin d'installer et de maintenir des logiciels propriétaires sur chaque nœud et chaque cluster, d'où une réduction considérable des frais généraux.
  • Open source – Les solutions Talend sont open source et reposent sur des standards ouverts : nous intégrons les innovations les plus efficaces des écosystèmes cloud et big data et nous en faisons profiter nos clients.
  • Unifié – Talend propose une seule plate-forme et un portefeuille complet pour l'intégration des données (qualité des données, MDM, intégration des applications et catalogue de données) et l'interopérabilité des données avec des technologies complémentaires.
  • Prix – La plate-forme Talend est proposée via une licence d'abonnement basée sur le nombre de développeurs qui l'utilisent, et non en fonction du volume de données ou du nombre de connecteurs, de CPU/cœurs, de clusters ou de nœuds. Les prix au nombre d'utilisateurs sont plus prévisibles et n'entraînent pas d'ajustement au volume de données (data tax) pour l'utilisation des produits.

Talend Big Data Platform propose des fonctionnalités complémentaires : capacités d'administration et de supervision, qualité de données directement intégrée à la plate-forme et support technique dédié sur le Web, par mail et par téléphone.

Notre solution propose également des fonctionnalités natives multi-cloud, une évolutivité pour tous les types de projet et 900 connecteurs intégrés.

Talend Real-Time Big Data Platform vous permet toutes ces opérations, mais aussi de profiter des performances de Spark Streaming en temps réel pour vos projets big data.

Premiers pas avec les big data 

Qu'attendez-vous pour découvrir la version d'évaluation de Talend Big Data Platform ? Talend Big Data Platform simplifie les intégrations complexes et s'appuie sur Spark, Hadoop, NoSQL et le cloud pour vous permettre de convertir plus rapidement vos données en connaissance exploitable. Et pour profiter au mieux de votre essai gratuit, consultez notre guide Premiers pas avec les big data

Prêt à faire vos premiers pas avec Talend ?