Observabilité : comment le machine learning fait évoluer les outils
Introduction
La surveillance IT est en pleine évolution. À les entendre, les éditeurs voient, eux, une transformation, une révolution même. Cette évolution touche l’ensemble des maillons de la chaîne de surveillance, de la capacité à suivre les logs, les métriques, et les traces. L’on est passé du monitoring de composants matériels ou logiciels à la recherche d’un idéal basé sur l’observabilité.
Il ne s’agit plus seulement de stocker des logs et de les analyser, mais de les corréler pour obtenir une vision d’ensemble d’un système. Seulement une fois obtenue cette vision d’ensemble, les ingénieurs et les SRE ne peuvent humainement pas surveiller et contrôler l’ensemble des éléments d’une architecture, surtout quand celles-ci reposent sur de plus en plus de microservices et autres containers.
C’est là qu’intervient Gartner en 2017 en définissant l’AIOps, l’intelligence artificielle pour les observations informatiques. Justement l’AIOps doit amener d’abord une amélioration de l’observabilité et du monitoring, puis proposer de la remédiation automatisée. Joli programme, vaste programme.
Cette utilisation du machine learning et du deep learning appliquée à l’observabilité, les éditeurs l’embrassent plutôt deux fois qu’une. IBM, New Relic, Dynatrace, PagerDuty, MoogSoft, Splunk, ServiceNow, DataDog, Microsoft, OpsRamp… Il en devient difficile de tenir le compte des acteurs engagés sur ce marché. Ils convergent tous vers un objectif commun : centraliser la surveillance et la réparation des systèmes des entreprises.
Sur le papier, c’est un contrat gagnant-gagnant pour l’éditeur et son client. L’éditeur propose une plateforme unique qui gère l’ingestion, le stockage, la corrélation, l’analyse des données (traces, métriques, logs), la gestion des alertes, jusqu’à l’autoremédiation. Pour le client, ce serait l’occasion de faire une croix sur la complexité de gestion de nombreux outils. Ceux-ci sont dédiés à certaines données (ou métadonnées) issues de sous-systèmes, de ressources matérielles, de monolithes et de microservices dans des containers – parfois fraîchement déployés.
Mais surtout, les techniques algorithmiques doivent apporter une meilleure compréhension des systèmes et des recommandations pour régler les problèmes IT. Il s’agit par exemple de déduire du comportement anormal d’une machine virtuelle, le composant ou le bout de code fautif. Les outils doivent alors s’appuyer sur un historique de données afin de détecter les principales anomalies, si possible les moyens employés pour les réparer, pour ensuite – au moment d’envoyer l’alerte – de construire un rapport concis donnant les raisons du problème à l’équipe SRE.
Chercher l’erreur, un processus souvent long, ne serait plus un problème. Ces outils proposent de plus en plus une analyse automatisée de la cause profonde d’un problème IT. C’est-à-dire qu’ils corrèlent les erreurs issues des logs, des métriques et des traces pour réduire le bruit des alertes et les envoient possiblement aux responsables du sujet.
Par exemple, le responsable d’exploitation de la compagnie d’assurance Stelliant affirme être passé de 300 alertes par jour avec Nagios à une vingtaine avec la solution AIOps de Dynatrace. Il assure également qu’il a non seulement réduit le nombre d’outils nécessaires à la surveillance des systèmes, mais aussi réunit les équipes autour d’un socle de connaissances commun – une véritable observabilité – leur permettant de collaborer de manière effective.
Avec la remédiation automatisée, les éditeurs veulent aller plus loin. Il s’agit tout simplement de réparer les problèmes IT sans intervention humaine ; ce que certains ont appelé NoOps. Et c’est là que pointent les limites des outils. Certains clients qui s’y sont essayés pour les tâches les moins critiques en production constatent encore un certain manque d’efficacité. D’autres voient la réticence des membres des équipes qui craignent à terme de perdre leur emploi, remplacé par scripts.
Enfin ce renouveau de l’observabilité et du monitoring ne règle pas tous les « vieux » problèmes de la surveillance IT. Le stockage des données dont les volumes explosent en même temps que leurs coûts, la gestion des outils existants et le besoin permanent de connecteurs aux différents systèmes sont quelques-uns des sujets sources d’angoisse pour les entreprises et leurs SRE.
Ce sont l’ensemble de ces points que nous tentons d’illustrer dans ce guide essentiel loin d’être exhaustif. Nous observons l’évolution du marché de l’observabilité à l’aune de la tendance de l’AIOps, les fonctionnalités des outils, équipés ou non de fonctionnalités « intelligentes », les usages des entreprises et les difficultés qu’elles rencontrent actuellement.
1Un marché en pleine expansion-
L’AiOps, une nouvelle ère ?
AIOps : PagerDuty tente de se différencier des acteurs du monitoring
PagerDuty revient sur les nouveautés de sa solution AIOps Event Intelligence. L’éditeur tente de se placer dans un entre-deux pour les organisations dont la gestion des opérations IT est largement distribuée. Lire la suite
AIOps : IBM se lance lui aussi sur ce marché (déjà) saturé
Le géant américain du cloud veut prouver que ses solutions de machine learning et de NLP sont idéales pour automatiser l’observabilité des SI… tout comme ses nombreux concurrents. Lire la suite
AIOps : New Relic veut réduire le bruit des alertes envoyées au SRE
L’éditeur a annoncé la disponibilité de New Relic AI, son outil AIOps adressé aux DevOps et aux responsables SRE. Cet ajout à la plateforme cloud New Relic One doit permettre d’identifier les incidents applicatifs plus rapidement et de les transmettre aux bonnes équipes. Lire la suite
APM : LightStep mise sur la surveillance des déploiements applicatifs
LightStep affine son logiciel d'observabilité avec sa nouvelle fonctionnalité Service Health for Deployments, qui doit aider les développeurs à trouver et à résoudre les problèmes des services déployés. Lire la suite
ServiceNow rachète Passage AI et Loom Systems pour ses chatbots et l’AIOps
ServiceNow vient d’acquérir coup sur coup une startup dans l’IA conversationnelle et un spécialiste de l’analyse en continu de logs. Deux technologies qui devraient bénéficier à ses clients d’ici un an. Lire la suite
2Mode d’emploi-
Les fonctionnalités des outils d’observabilité
Tutoriel : comment surveiller proactivement vos systèmes avec Nagios
Apprenez à installer et à utiliser Nagios pour surveiller les ressources IT de votre entreprise. Suivez ces étapes afin de mieux vous préparer à détecter les problèmes, avant qu’ils ne deviennent incontrôlables. Lire la suite
APM : Comment utiliser New Relic pour surveiller vos applications
New Relic APM est l’un des nombreux outils qui peuvent aider les équipes IT à suivre les performances et la santé des applications. Avant de l’adopter, il convient de comprendre ses fonctionnalités et ses prérequis d’installation. Lire la suite
Comment fonctionne l’observabilité automatisée chez Dynatrace ?
Dynatrace propose une plateforme d'observabilité automatisée qui repose principalement sur le moteur d'intelligence artificielle Davis AI. Dans cet article nous expliquons les tenants et aboutissants des trois briques essentielles de cette plateforme propriétaire. Lire la suite
Comment tirer le meilleur parti des logs issus des containers
Pour éviter les pannes, il faut établir une stratégie détaillée d’indexation, de recherche, de corrélation et d’analyse des logs issus des containers. Lire la suite
Les cinq cas d’usage les plus communs de l’IA dans l’IT Ops
Le machine learning est un sujet d’actualité pour les divisions IT et les entreprises. Apprenez comment les équipes en charge des opérations IT appliquent le plus souvent la technologie, de la réponse du service d’assistance à l’évaluation de la satisfaction de l’utilisateur final. Lire la suite
3Réalité-
Comment les entreprises surveillent leurs systèmes
Observabilité : comment Orange surveille ses applications réservées aux abonnés
Après un passage à l’échelle compliqué, l’équipe en charge du PaaS Erable considère Elastic Logstash et Kibana comme des outils indispensables pour gérer les applications développées et hébergées sur la plateforme interne. Lire la suite
Comment ManoMano surveille son SI en pleine transformation
ManoMano est le créateur d’une place de marché d’achat en ligne de produits de bricolage, de rénovation et de jardinage. Dans le cadre de sa croissance, l’entreprise revoie l’ensemble de son architecture IT et a adopté la plateforme de DataDog pour la surveiller. Lire la suite
Un monitoring « haute couture » pour le champion du luxe à petit prix Vestiaire Collective
Positionné sur un marché de la revente d’articles de luxe en train d’exploser, le français Vestiaire Collective refond son architecture technique afin d’aller vers le cloud et les microservices. Une évolution sous l’œil des outils de mesure de performance de New Relic. Lire la suite
Comment Sega Europe a réduit ses délais de réponse aux incidents
Le centre opérationnel de sécurité du spécialiste du jeu vidéo a radicalement amélioré son efficacité en adoptant le système de gestion des informations et des événements de sécurité en mode Cloud de Sumo Logic. Lire la suite
Stelliant maîtrise (enfin) ses applications grâce à l’observabilité automatisée
Le groupe Stelliant s’est spécialisé dans l’expertise en assurance. Sa croissance rapide ces dernières années a provoqué une complexification de son SI. Pour diminuer les risques de baisse de performance, la DSI s’appuie sur l’approche AIOps mise en avant par Dynatrace pour surveiller les applications et les corriger. Lire la suite
4Défis-
Les difficultés rencontrées par les entreprises
AIOps : les utilisateurs peinent à faire confiance à l’autoremédiation
Les outils AIOps promettent d’automatiser la résolution d’incidents envers une liste toujours plus longue d’infrastructures, mais les professionnels de l’IT sont encore réticents quant à leur utilisation pour la correction automatisée en production. Lire la suite
La surveillance des logs évolue pour ne pas faire exploser les coûts
Qu’il s’agisse d’ajuster la tarification en fonction de la fréquence d’accès ou de réduire le volume des logs envoyés par l’infrastructure IT, de nouvelles approches de surveillance permettent de gérer le coût des applications cloud natives. Lire la suite
NoOps : face à la confusion des clients, Dynatrace se concentre sur l’observabilité
Dynatrace vante l’automatisation des opérations IT, mais les clients se posent encore des questions sur son outil AIOps de surveillance « intelligente ». Conscient de la situation, l’éditeur souhaite avancer prudemment. Lire la suite
SRE : un responsable aux multiples casquettes
Un ingénieur de fiabilité de sites a plusieurs casquettes. En plus des responsabilités de développement et de dépannage, ce rôle requiert des compétences de communication de haut niveau. Lire la suite