Conseil

Cet article fait partie de notre guide: Analytique augmentée : guide pour bien choisir sa BI de nouvelle génération

Analytique en temps réel : les tendances et les cas d’usage à retenir

Alors que de plus en plus d’entreprises adoptent l’analytique en temps réel, de nouvelles infrastructures et pratiques voient le jour. Voici les pratiques les plus marquantes associées aux plateformes d’analyse de données en continu.

par

George Lawton

Publié le: 30 mars 2020

Les organisations commencent à adopter les plateformes de streaming de données dans le but d’obtenir des indicateurs qui s’adaptent aux nouvelles données, souvent récoltées en temps réel. Il s’agit d’aller au-delà de l’analytique traditionnelle, qui, elle, s’appuie sur des lots de données, et de gagner en réactivité.

Cette technologie en est encore à ses débuts, mais les entreprises sont enthousiastes à l’idée d’obtenir des informations plus concrètes, qu’elles pourront transmettre aux responsables et aux collaborateurs en premières lignes. Elles veulent également s’en servir pour fournir de meilleures applications aux utilisateurs.

« Capturer, intégrer, analyser et archiver des flux de données s’avère beaucoup plus complexe que de créer des pipelines pour des batchs de données au repos », affirme Torsten Volk, directeur de la recherche chez Enterprise Management Associates.

Observer les données en mouvement

Analyser des données en continu, c’est comme essayer de comprendre le fonctionnement de voitures en surveillant le trafic au bord d’une autoroute par rapport à l’examen de ces mêmes véhicules dans un parking. Non seulement vous n’avez pas une bonne vue d’ensemble de chaque voiture dans la circulation, mais vous devez aussi constamment déplacer votre attention d’une voiture à l’autre.

« Les analystes sont confrontés à des défis similaires lorsqu’il s’agit d’intégrer et de synchroniser des données en continu qui proviennent souvent de sources très dynamiques telles que des containers applicatifs, des capteurs IoT ou des terminaux Edge », constate Torsten Volk.

Pour relever ce défi, il convient d’adopter un ensemble de nouvelles technologies et de compétences humaines. En plus de s’occuper des « voitures en mouvement », il faut aussi réfléchir à la manière de prendre en compte le dynamisme induit par ces flux de données.

« Construire des pipelines de données dynamiques pour faire face à ce changement constant est une tâche non négligeable. »

Torsten VolkEnterprise Management Associates

Par exemple, les containers peuvent être rapidement reproduits, arrêtés, ou déplacés dans différents clouds ou centres de données, tandis que des capteurs peuvent être ajoutés, améliorés, remplacés ou retirés sans préavis. En outre, un terminal Edge est parfois soumis à une connectivité inégale.

« Construire des pipelines de données dynamiques pour faire face à ce changement constant est une tâche non négligeable », estime Torsten Volk.

Kubernetes, l’IoT et l’Edge Computing, les moteurs de la croissance

Le directeur de la recherche voit les containers, l’IoT et l’Edge computing comme les trois principaux moteurs de l’analyse en continu. Ces trois disciplines/technologies créent en permanence des flux de données opérationnelles qui ne cessent de croître.

La capture et la corrélation de ces points de données font souvent la différence entre des décisions ou des réponses, excellentes ou désastreuses, aux problèmes rencontrés.

Par exemple, avec les containers Kubernetes, plus les clusters associés sont complexes, plus il devient difficile pour les administrateurs de trouver la cause première d’un problème via l’analyse statique de logs. Ceux-ci ne permettent pas d’identifier les premiers symptômes d’un problème. L’analyse en continu, elle, permet de le faire en examinant tout ce qui se passe entre et pendant la création de logs.

L’analyse en continu permettrait aux équipes de découvrir que si l’application ne présente aucun symptôme de stress, sous le capot, certains paramètres de configuration peuvent être contradictoires et provoquer la consommation inutile, l’arrêt ou le déplacement de containers. « Cela peut avoir peu d’incidence dans des conditions normales, mais entraîner de gros problèmes en cas de montée en charge », prévient Torsten Volk.

Des décisions plus rapides

Les entreprises adoptent l’analyse de flux pour accélérer les processus décisionnels.

« Les organisations s’efforcent de réduire les retards dans l’analyse des données au repos en augmentant leur capacité à analyser les données en mouvement. »

Carlton SappGartner

« Les organisations s’efforcent de réduire les retards dans l’analyse des données au repos en augmentant leur capacité à analyser les données en mouvement », considère Carlton Sapp, directeur analyste chez Gartner.

Carlton Sapp voit également apparaître des outils, dédiés à l’analyse en continu, conçus pour réduire les données inutiles et ne traiter que les plus pertinentes. Les plateformes de streaming analytics sont devenues des filtres sophistiqués capables de séparer le bon grain de l’ivraie.

Ces outils peuvent également aider à analyser les données IoT plus près du lieu où elles sont collectées et résumées de manière appropriée pour obtenir un aperçu plus approfondi.

L’analyste de chez Gartner considère que les entreprises recherchent davantage de capacités d’analyse avancée qui utilisent l’IA ou le machine learning sur des données en transit. Cependant, il note que le deep learning appliqué sur les pipelines de streaming reste un mystère pour de nombreuses sociétés.

Une autre tendance émergente chez les éditeurs consiste au développement d’outils pour améliorer la contextualisation des données de streaming en connectant les flux à divers magasins au repos.

« Les entreprises souhaitent une plus grande intégration avec les plateformes traditionnelles de data management », assure Carlton Sapp.

Ces organisations recherchent également de meilleures capacités de visualisation adaptées à ces flux en temps réel.

L’observabilité des systèmes IT, un cas d’usage important de l’analytique en temps réel

Carlton Sapp estime que les adeptes du « streaming analytics » devraient également envisager d’adapter des outils destinés à l’amélioration des infrastructures IT et de gestion de données. Par exemple, ils peuvent aider à parfaire la réplication et la saisie d’informations.

« L’analyse de données en continu peut véritablement incarner un couteau suisse pour les entreprises. »

Carlton SappGartner

« L’analyse de données en continu peut véritablement incarner un couteau suisse pour les entreprises, en particulier pour faire évoluer les méthodes traditionnelles de traitement de données », déclare l’analyste de chez Gartner.

La plateforme de suivi d’informations en temps réel peut aussi servir d’outil complémentaire au stockage monolithique des données dans des data warehouses en utilisant un ETL pour gérer ou réduire le coût total de la gestion de données. Carlton Sapp s’attend également à voir la multiplication des cas d’usage lié à la maintenance des systèmes IT en temps réel.

De nombreux défis à relever

Les entreprises sont confrontées à de nombreux défis dans la construction des pipelines de données en continu pour assurer le succès de ces programmes. Selon l’analyste de chez Gartner, ces défis sont les suivants :

Intégrer les données time series avec celles au repos ;
Ingérer et intégrer une variété de sources de données différentes pour prendre en charge certains cas d’usage ;
Adopter des méthodes de sécurisation, de gouvernance et de respect de la vie privée pour les données en transit ;
L’augmentation du coût du transport de flux de données très volatils – même si les fournisseurs cloud offrent des services élastiques, les coûts liés au débit et aux payloads peuvent être imprévisibles.

Gérer le stockage chaud et froid

Le stockage chaud, tiède et froid (hot/warm/cold) est un concept utile. Chaque système peut en avoir un ou plusieurs de chaque type, selon Sean Werick, directeur général de l’analytique chez Sparkhound.

Le stockage froid sert principalement à conserver les lots, à la manière d’un entrepôt de données. Cela représenterait 95 % de la demande de rapports et d’analyses.

Le stockage chaud gère les informations les plus utiles dans l’immédiat. Par exemple, un responsable du service client d’un opérateur de télécommunication peut consulter en direct les informations liées à sa ligne.

« La différence essentielle réside dans le fait que les flux de données chaudes nécessitent une action immédiate dès qu’un événement se produit. Les données froides sont généralement analysées de manière ad hoc », considère Sean Werick.

Il constate que les experts du marketing et les fabricants industriels adoptent le concept de stockage chaud. Lors d’une campagne marketing, une entreprise veut surveiller les flux des réseaux sociaux afin de l’ajuster en temps réel. Un constructeur automobile peut vouloir savoir comment tous ses équipements fonctionnent à un instant T, voire appliquer des techniques de maintenance prédictive.

Un changement de mode de pensée

Sean Werick avertit que l’analyse en temps réel n’est pas adaptée à toutes les applications. De plus, cela peut coûter très cher en termes d’infrastructure et de gestion. Il convient d’appliquer cette technique aux services qui ont réellement besoin d’être actualisés en temps réel.

« Les données en temps réel permettent de prendre des décisions en temps réel et sont généralement de nature critique », assure-t-il.

« L’analyse en continu est complexe et nécessite un mode de pensée différent. »

Sean WerickSparkhound

Il rencontre de nombreux clients qui disent avoir besoin de l’analyse en temps réel, mais qui n’ont pas une idée définie des résultats qu’ils comptent obtenir.

« L’analyse en continu est complexe et nécessite un mode de pensée différent », rappelle le directeur général de l’analytique chez Sparkhound. « Il s’agit d’une mutation des méthodes traditionnelles de data warehousing et du stockage à froid », ajoute-t-il.

Cela entraîne également un changement majeur dans l’architecture IT. Beaucoup de clients de Sean Werick ne savent pas par où commencer, car ils appliquent la même technique depuis 30 ans.

Se concentrer sur les bons cas d’usage

Les organisations se concentrent trop souvent sur les enjeux techniques liés au déploiement de l’analyse de flux de données. Elles oublient les défis opérationnels et les notions de ROI, de processus et de compétences, estime Ed Cuoco, vice-président de l’analytique chez PTC, un éditeur spécialisé dans le PLM et l’ALM.

Les cas d’usage les plus courants pour améliorer les opérations sont les suivants :

Intelligence opérationnelle. La combinaison et la corrélation de données en indicateurs en temps réel améliorent la phase de décision. Cela entraînerait de meilleures performances, l’efficacité et les recommandations prévisionnelles pour la gestion des opérations.
Maintenance prédictive. Planifier proactivement les travaux de maintenance en se basant sur des informations obtenues en condition réelle doit permettre d’augmenter la productivité, la qualité et la satisfaction client.
Suivi des processus et des ressources. Détecter des conditions indésirables, inattendues ou anormales des actifs doit faciliter le triage et la résolution des problèmes potentiels par les experts.

Analytique en temps réel : les tendances et les cas d’usage à retenir

Alors que de plus en plus d’entreprises adoptent l’analytique en temps réel, de nouvelles infrastructures et pratiques voient le jour. Voici les pratiques les plus marquantes associées aux plateformes d’analyse de données en continu.

Observer les données en mouvement

Kubernetes, l’IoT et l’Edge Computing, les moteurs de la croissance

Des décisions plus rapides

L’observabilité des systèmes IT, un cas d’usage important de l’analytique en temps réel

De nombreux défis à relever

Gérer le stockage chaud et froid

Un changement de mode de pensée

Se concentrer sur les bons cas d’usage

Pour approfondir sur Big Data et Data lake

Broadcom VMware durcit vDefend et abandonne la marque Tanzu dans VCF

Un ancien d’Oracle prend la barre de Docker Inc.

Docker augmente le prix de ses forfaits pro et Team

Suse veut faire de Rancher le Kubernetes des machines edge