Analytique en périphérie – Avantages et inconvénients d'une connaissance immédiate et locale

Comme je l'ai indiqué dans mon dernier post de blog sur l'IoT, un certain nombre de data scientists m'ont contacté au sujet du stockage et traitement des données. Pour l'essentiel, leurs questions avaient trait à une préoccupation partagée : ils ne « savent pas quoi faire » de leurs données ! Ils ne savent pas s'ils doivent stocker ou supprimer leurs données. Ceux qui appliquent déjà des pratiques de stockage sont incapables d'identifier la meilleure approche pour transformer ces données en ressource stratégique pour leur entreprise.

Malgré la prolifération spectaculaire des capteurs, la plus grande partie des données générées par l'Internet des objets industriels (IIoT) et collectées par les entreprises ne sont jamais analysées, ce qui est... spectaculairement déplorable ! La plupart des plates-formes de gestion des données IoT/IIoT existantes sont coûteuses, désespérément lentes et exigeantes en ressources, ce qui complique considérablement les travaux d'analyse.

Un rapport Gartner indique que 90 % des données accumulées par les entreprises ne seront jamais exploitables, et un rapport Experian indique que près de 32 % des données disponibles dans les entreprises américaines sont inexactes. Il n'en demeure pas moins que les données sont la ressource la plus précieuse de toute entreprise. Il est donc inconcevable de les ignorer complètement ou de les laisser dormir dans un data lake dont personne ne se préoccupe jamais. Les data scientists doivent impérativement exploiter leurs gisements de données IoT pour mieux comprendre les différents points de terminaison qui reçoivent ces données et formuler des conclusions permettant de définir un environnement opérationnel plus efficace.  Personnellement, je suis totalement opposé à la décision de supprimer des données sans leur faire subir aucun traitement.

Comme mentionné dans « IoT Blog », dans quelques années, on comptera 15 à 40 milliards d'équipements connectés de plus par rapport à ce que nous connaissons aujourd'hui[1], et tous ces objets généreront des données en périphérie. Cette évolution va faire apparaître de nouveaux défis. Imaginez une infrastructure qui transfère ces données vers des data lakes et des hubs de traitement pour les traiter. La charge de ces objets connectés va continuer à augmenter à un rythme exponentiel au cours des mois et années à venir, ce qui ne fera qu'accentuer le problème des entreprises qui se contentent de repousser les limites de leur infrastructure.

Dans un premier temps, le seul avantage à attendre de ces données se situera dans le domaine de l'analyse du trafic des objets IoT ou des caméras de vidéoprotection/vidéosurveillance. Et si nous différons cette analyse dans des situations sensibles au temps, il sera rapidement trop tard. Ce report des analyses peut être dû à de nombreuses raisons, comme la disponibilité limitée du réseau ou la surcharge des systèmes centraux. 

  

Une approche relativement nouvelle, appelée « analytique en périphérie », peut être utilisée pour répondre à ces préoccupations. En quelques mots, il s'agit d'effectuer les analyses au point de génération des données ou d'analyser en temps réel sur site. La conception architecturale des objets doit intégrer des capacités d'analyse intégrées. Par exemple, les capteurs installés dans un train ou dans les feux de circulation et qui assurent une supervision et gestion intelligentes du trafic ferroviaire/routier doivent être capables d'alerter les services d'incendie ou de police les plus proches en fonction de leur analyse de l'environnement local. Autre exemple : les caméras de sécurité. Transmettre un flux vidéo en direct sans tenir compte des événements captés est pratiquement inutile.  Il existe des algorithmes capables de détecter les changements visuels ; lorsqu'ils sont capables de comparer une vue donnée à une vue précédente, ils transmettent uniquement ce type d'événement. Il est donc plus logique de traiter ce type d'événement en local (directement sur le lieu où il se produit) plutôt que de le transmettre à un réseau pour analyse. Il est très important d'identifier les domaines dans lesquels l'analytique en périphérie est utile. Il est également important de réaliser que si les équipements considérés ne supportent pas le traitement local, nous devons architecturer un réseau connecté pour interpréter les données générées par les capteurs et équipements installés à l'emplacement le plus proche. De nombreuses sociétés (dont Cisco et Intel) sont des partisans de l'analytique en périphérie, et ils ont commencé à faire la promotion de leurs passerelles en mettant en avant leurs capacités d'analytique en périphérie. IBM Watson IoT est un projet de partenariat entre IBM et Cisco qui remodèle la conception architecturale de l'analytique en donnant la possibilité de déployer n'importe où de puissantes capacités d'analyse. Dell, l'un des principaux fournisseurs de serveurs, a développé des équipements spéciaux (par exemple, Dell Edge Gateway) pour supporter l'analytique en périphérie. Dell a également développé un environnement analytique complet (matériel et logiciels) qui permet de créer un modèle d'analyse sur un site ou dans le cloud et de le déployer dans d'autres segments d'un écosystème.

Il convient de noter que l'analytique en périphérie exige quelques compromis : les opérations de traitement et d'analyse sont limitées à un sous-ensemble des données disponibles, et le résultat de l'analyse est transmis dans un réseau. Autrement dit, une partie des données brutes est ignorée et une partie des connaissances potentielles est perdue. La question est donc simple : cette perte est-elle supportable ? Avons-nous vraiment besoin de traiter l'intégralité des données ou le résultat généré par ces analyses partielles peut-il suffire ? Pouvons-nous prédire l'impact de ce résultat ? Il n'y a pas de réponse standard à cette question. Dans un avion de ligne, les systèmes de pilotage et de navigation ne peuvent pas se permettre de traiter seulement une partie des données. Pour cette raison, toutes les données générées par ces systèmes doivent être transférées au sol pour être analysées et détecter toute structure de données pouvant correspondre à une anomalie en cours ou prédite. Mais ce transfert de données pendant le vol n'est pas une solution pratique. Par contraste, il semble que la collecte des données hors ligne et l'analytique en périphérie pendant le vol constituent une meilleure approche. Les environnements qui supportent une certaine tolérance aux incidents peuvent accepter qu'il est impossible d'analyser l'intégralité des données. Nous devrons tirer les leçons de l'expérience des entreprises qui se tourneront vers ce nouveau domaine de l'analyse de l’IoT et qui examineront leurs résultats.

Répétons cette évidence : les données sont la ressource la plus précieuse de toute entreprise. Pour déceler des tendances et procéder à des analyses de marché efficaces, il est préférable d'analyser TOUTES les données.  Les entreprises pilotées par les données avancent beaucoup plus rapidement que les entreprises traditionnelles. L'analytique en périphérie des données générées par les objets IoT est un nouvel espace passionnant qui pourrait être une réponse efficace aux préoccupations de maintenance et d'utilisabilité des données, d'autant que certaines grandes sociétés investissent massivement dans ce domaine. Un rapport IDC FutureScape portant sur l’IoT prédisait que, en 2018, 40 % des données IoT seraient stockées, traitées, analysées et exploitées à l'endroit même de leur génération – et donc avant d’être transférées vers un réseau[2]. La transmission des données est une opération coûteuse, et nous devons réduire ce coût sans affecter la qualité et le timing de nos décisions – l'analytique en périphérie est clairement la solution idéale dans ce domaine.

 

 

Sources :

  1. [1]« The Data of Things: How Edge Analytics and IoT go Hand in Hand » (septembre 2015)
  2. [2] « Will Analytics on the Edge be the Future of Big Data? » (Forbes, Bernard Marr, août 2016)
  3. http://www.forbes.com/sites/teradata/2016/07/01/is-your-data-lake-destined-to-be-useless http://www.kdnuggets.com/2016/09/evolution-iot-edge-analytics.html https://www.datanami.com/2015/09/22/the-data-of-things-how-edge-analytics-and-iot-go-hand-in-hand
  4. https://developer.ibm.com/iotplatform/2016/08/03/introducing-edge-analytics/
  5. http://www.forbes.com/sites/bernardmarr/2016/08/23/will-analytics-on-the-edge-be-the-future-of-big-data/#7eb654402b09 http://www.ibm.com/internet-of-things/iot-news/announcements/ibm-cisco/
  6. https://www.experianplc.com/media/news/2015/new-experian-data-quality-research-shows-inaccurate-data-preventing-desired-customer-insight/

Prêt à faire vos premiers pas avec Talend ?