AIOps : les utilisateurs peinent à faire confiance à l’autoremédiation

Les outils AIOps promettent d’automatiser la résolution d’incidents envers une liste toujours plus longue d’infrastructures, mais les professionnels de l’IT sont encore réticents quant à leur utilisation pour la correction automatisée en production.

L'AIOps a suscité un engouement important depuis 2017, les progrès des algorithmes d’apprentissage automatique ayant incité les éditeurs de solutions de monitoring et d’observabilité à envisager une nouvelle méthode d’automatisation embarquée au sein de leurs produits. Dans le même temps, les architectures complexes composées de microservices sont devenues particulièrement difficiles à gérer de la seule main de l’homme.

Suite de l'article ci-dessous

Depuis lors, les outils AIOps se sont sophistiqués, ajoutant des fonctions d’autoremédiation, de corrélation des événements ou d’analyse automatisée des causes profondes. Par ailleurs, les éditeurs AIOps ayant évolué dans des domaines spécialisés ont élargi la palette des workloads pris en charge par leurs solutions.

Au côté de Dynatrace, Splunk, New Relic et autres, l’on peut citer Epsagon. Cet éditeur a vu le jour en 2018 en proposant un traçage distribué basé sur l’IA, pour les environnements serverless, qu’il a étendu en 2019 pour inclure le suivi des containers et des composants du cloud. La solution offre désormais des fonctionnalités AIOps que l’éditeur appelle « Applied Observability » pour automatiser les tâches de résolution d’incidents mineurs en réponse à des métriques et des logs en plus des traces. Le mois dernier, Epsagon a lancé un partenariat avec Microsoft centré sur les environnements Kubernetes, après avoir conclu un accord avec AWS portant sur le service FaaS Lambda.

OpsRamp, lui, a élargi sa suite d’outils OpsQ avec une fonctionnalité pour la surveillance synthétique, qui utilise des transactions scriptées pour émuler les charges de travail et exposer les maillons faibles des systèmes multi transactionnels. La plupart des éditeurs spécialistes de l’APM, tels que Dynatrace et Datadog, sont également connus pour le monitoring synthétique. Mais OpsRamp prend en charge d’autres types de surveillance, en considérant les logs et les métriques. Ces données supplémentaires doivent permettre d’améliorer la détection proactive de la dégradation des performances, l’analyse automatisée des causes profondes et les fonctionnalités d’auto remédiation proposées par l’éditeur.

Les utilisateurs de ces outils affirment que la corrélation automatisée des événements et l’analyse des causes profondes ont eu un impact significatif sur leur capacité à répondre rapidement aux incidents.

AIOps oui, autoremédiation, peut être

« Depuis que nous avons commencé à surveiller [avec Epsagon], nous avons moins d’incidents » témoigne Arne Saupe, directeur de l’ingénierie chez Farmer’s Fridge, une entreprise de services alimentaires de Chicago, qui utilise Epsagon dans un environnement informatique entièrement composé de fonctions AWS Lambda. « Auparavant, si les problèmes étaient intermittents, cela pouvait nous prendre un certain temps pour les localiser ; maintenant, nous pouvons les voir et les résoudre définitivement ».

Dans l’ensemble, chez Farmer’s Fridge, le temps moyen de réparation (MTTR) des problèmes IT a été réduit de 55 %, par rapport à la combinaison d’outils que les ingénieurs de la société utilisaient auparavant, qui comprenait AWS CloudWatch et des outils maison, selon Arne Saupe. Les interruptions de services liées à des incidents IT ont été réduites de 35 %.

« Epsagon s’est distingué dans le domaine de la surveillance serverless, car il utilise l’IA pour découvrir automatiquement toutes les parties d’une infrastructure et comment elles interagissent entre elles », considère Arne Saupe. Au moment où Epsagon est apparu, la plupart des autres outils de monitoring dédiés à ce type d’architecture, y compris les outils AWS natifs, avaient des angles morts, car les fonctionnalités traversaient plusieurs systèmes.

« Dans les cas où nous avons des problèmes, cela peut être déclenché par un composant situé à trois niveaux [en amont] d’une fonction Lambda qui est affectée », estime Arne Saupe. « Avant, cela nous prenait du temps pour le tracer, mais maintenant nous voyons tous les intrants qui vont dans cet environnement Lambda, et nous pouvons remonter le temps, voir ce que nous avons récemment changé et qui pourrait causer la défaillance du Lambda ».

Bien que la découverte et l’analyse des causes profondes basées sur l’IA soient des parties importantes de ce processus, le directeur de l’ingénierie chez Farmer’s Fridge avoue qu’il n’a pas encore expérimenté la remédiation automatisée en utilisant les fonctionnalités « Applied Observability » d’Epsagon, bien qu’il ait l’intention de le faire prochainement.

« C’est quelque chose qui intéresse l’équipe, mais nous n’y avons pas encore consacré le temps nécessaire », dit-il.

GreenPages fait de petits pas vers une remédiation automatisée

De son côté, GreenPages Technology Solutions, un intégrateur de systèmes et infogérant, est un partenaire revendeur et utilisateur d’OpsRamp depuis sa séparation en 2014 du fournisseur de services IT Netenrich, avec lequel il s’est également associé. C’était avant que la société ne se concentre sur l’AIOps, mais elle a fondé son support pour les environnements physiques, virtuels et en cloud sur un seul outil utile pour ses clients PME et ETI qui utilisent sa plateforme de services.

« À l’époque, les éditeurs avec lesquels nous travaillions prenaient en charge les trois environnements, mais via des outils disparates, issus de diverses acquisitions », constate Ron Dupler, PDG de GreenPages. « “Single pane of glass” est une expression galvaudée, mais à l’époque, OpsRamp avait tout ce dont nous avions besoin ».

OpsRamp a petit à petit ajouté le support de nouvelles formes d’infrastructures, notamment des containers et des serveurs. Il est maintenant en concurrence avec les spécialistes tels que Moogsoft, mais peut encore se reposer sur son exhaustivité, selon Ron Dupler.

Cependant, alors que GreenPages s’appuie fortement sur la réduction des alertes et l’analyse des causes profondes d’OpsRamp pour faire fonctionner ses services informatiques gérés, il a été plus lent à adopter les fonctionnalités d’autoremédiation en production.

« [Avec OpsRamp] Nous voulions nous assurer que seuls les vrais problèmes sont présentés aux ingénieurs, et qu’ils peuvent bénéficier du contexte de nos expériences passées », déclare Jay Keating, vice-président des services de GreenPages. Quant à la remédiation automatisée, « nous la mettons en place, mais nous sommes réticents ».

Jusqu’à présent, « la remédiation automatisée a été déployée pour résoudre des problèmes simples, comme un système manquant d’espace disque ou le redémarrage d’un service », explique Jay Keating. L’entreprise expérimente des solutions plus avancées et évalue les observations qu’OpsRamp fait au personnel IT sur ce qu’il aurait fait pour résoudre automatiquement les incidents si cela lui était pleinement déployé.

« Pour l’instant ça passe ou ça casse », assure Jay Keating. « Ça ne s’est pas encore assez bien passé pour que nous puissions faire confiance dans l’outil en production ».

« Souvent, la réponse proposée par l’outil est correcte, mais elle n’est pas proposée au bon moment de la journée ou pour le bon système », ajoute-t-il.

Les responsables d’OpsRamp expliquent que la performance de l’IA et la remédiation dépendent de la quantité de données et de l’entraînement des algorithmes, et que l’éditeur continuera à améliorer ses produits AIOps en réponse aux commentaires des clients. L’éditeur a récemment ajouté des fonctions de transparence pour ses algorithmes, comme le mode « Observé » pour montrer aux utilisateurs quelles alertes sont corrélées avant de lancer OpsQ en production, et le mode « Recommandé » pour indiquer les possibilités d’optimisation.

GreenPages veut tout de même aller de l’avant. À terme, l’intégrateur espère faire de la solution d’OpsRamp la principale plateforme d’exécution pour la sécurité informatique, l’optimisation des coûts du cloud, ainsi que pour les opérations IT supportées par l’outil.

Mais GreenPages dispose également d’outils ServiceNow qui offrent des fonctionnalités d’exécution similaires, et tant OpsRamp que ServiceNow proposent une intégration avec leurs outils respectifs. Comme les éditeurs AIOps continuent à se diversifier, ce chevauchement ne fera que s’accroître, et les utilisateurs tels que GreenPages doivent en fin de compte décider quel outil s’occupera de l’automatisation centralisée.

« À un moment, c’est la collecte des données qui sera reine et tout le reste reposera sur une plateforme de script », conclut le vice-président des services de GreenPages.

Pour approfondir sur Administration de systèmes

Close