James Thew - Fotolia

Après l’observabilité, Datadog s’attaque au marché de l’automatisation IT

Lors de sa conférence DASH 2024 la semaine dernière, Datadog a consacré plus d’une douzaine de ses annonces à l’automatisation des processus d’enquêtes et de remédiations après incident IT. L’éditeur sort ainsi de son pré carré de l’observabilité et marche sur les plates-bandes d’acteurs comme Atlassian, PagerDuty et d’autres.

Sans surprise, Datadog a entamé les hostilités en dévoilant la disponibilité générale de sa solution d’observabilité LLM, qui permet de dépanner et de tracer les problèmes au sein de grandes applications appelant des modèles de langage et des systèmes de données connexes.

Mais le reste des 14 mises à jour de produits était axé sur de nouvelles manières, pour les utilisateurs, d’automatiser la réparation et la remédiation des incidents dans les logiciels et l’infrastructure.

L’automatisation à toutes les sauces

LeMagIT a déjà évoqué Kubernetes Autoscaling, une solution pour gérer les ressources cloud inactives et optimiser la mise à l’échelle de l’infrastructure en fonction de la consommation réelle des conteneurs.

En outre, Datadog a annoncé Live Debugger, une fonctionnalité en bêta privée qui utilise les données de production pour rejouer les erreurs applicatives et guider les développeurs dans leurs efforts de remédiations. Une capacité en bêta privée, Change Tracking, établit, elle, une corrélation entre les modifications logicielles et les problèmes d’infrastructure cloud.

Change Tracking alimentera également deux autres mises à jour présentées en préversion cette semaine : un nouveau produit appelé Datadog On-Call et une version revue du copilote Bits AI de Datadog, qui effectuera des enquêtes autonomes sur les incidents IT sur la base d’un modèle d’IA générative que l’entreprise a entraîné dans un environnement de simulation d’incidents dédiés, selon Sajid Mehmood, vice-président de l’ingénierie chez Datadog, au cours d’un keynote.

Sajid Mehmood a présenté des flux de travail d’investigation autonomes. Dans un cas de monitoring en temps réel des données des utilisateurs (RUM), il s’agit pour le système de dénombrer les usagers affectés par un problème, de suggérer l’incident à déclarer, d’en générer un résumé et une page d’informations, le tout en s’appuyant sur des renseignements disponibles depuis un thread Slack des opérateurs d’astreinte.

Dans la démonstration effectuée par Sajid Mehmood, l’agent Bits AI s’est inspiré de cette conversation pour faire apparaître des données télémétriques pertinentes, telles que les données de suivi des changements. En outre, il a généré une première ébauche d’un post-mortem de l’incident.

« Pour transformer Bits AI en enquêteur indépendant, nous avons investi massivement dans des agents d’IA… optimisés spécifiquement pour les environnements multi-utilisateurs et multi-threads propres à la gestion de la réponse aux incidents », vante Sajid Mehmood.

Le responsable semble reprendre là des éléments évoqués par Atlassian lors de sa conférence Team, ayant eu lieu le 24 avril dernier. Dynatrace propose également des fonctions de remédiation des incidents et d’AIOps basées sur l’observabilité, y compris pour la sécurité.

Selon Andy Thurai, analyste chez Constellation Research, les mises à jour de Bits AI sont les plus convaincantes parmi les annonces faites par Datadog.

« L’agent autonome d’IA peut rationaliser le processus d’investigation des alertes et de réponse aux incidents, à l’instar de l’App for Incident Intelligence de Splunk », compare-t-il.

On-Call : Datadog veut s’installer sur les terres de PagerDuty et d’Atlassian

Ces fonctionnalités seront également à la base de Datadog On-Call, qui pourrait concurrencer directement PagerDuty et Atlassian Opsgenie.

« L’automatisation [IT], la remédiation et la gestion des incidents sont autant de grands signes envoyés à la base installée d’Atlassian, tandis qu’On Call couvre un domaine dans lequel PagerDuty est un leader ».
Stephen ElliotAnalyste, IDC

L’argument de Datadog pour On-Call est qu’il réduit le changement de contexte pour les professionnels des opérations informatiques entre les outils d’observabilité et de gestion des incidents, grâce à une intégration avec l’application mobile de Datadog. Cela offre un accès direct aux données d’observabilité.

« Ce que je viens de vous montrer n’est pas une solution de paging », avance Daljeet Sandu, chef de produit chez Datadog, après avoir fait la démonstration de l’intégration d’On-Call avec l’application mobile, lors d’une présentation DASH. « Ce que je vous ai montré, c’est une plateforme unique pour la surveillance, la sécurisation, l’astreinte et l’investigation des problèmes à la volée ».

« L’automatisation [IT], la remédiation et la gestion des incidents sont autant de grands signes envoyés à la base installée d’Atlassian, tandis qu’On Call couvre un domaine dans lequel PagerDuty est un leader », note Stephen Elliot, analyste chez IDC. « Les acheteurs ont plus que jamais le choix entre des produits de qualité [alors que] les annonces de Datadog montrent qu’ils veulent utiliser leur plateforme… dans ces disciplines ».

D’autres éditeurs de plateformes d’observabilité et DevOps ont essayé d’empiéter sur l’avance de PagerDuty en matière de gestion des incidents et ne sont pas allés très loin, indique pour sa part Andy Thurai.

« S’il n’est peut-être pas possible de débaucher les clients de PagerDuty [certains] d'entre eux pourraient être ouverts à une combinaison avec l’observabilité de Datadog. Seul l’avenir nous le dira ».
Andy ThuraiAnalyste, Constellation Research

« Les acquisitions de VictorOps et d’OpsGenie n’ont pas aidé Splunk ou Atlassian à s’attaquer à ce problème », illustre Andy Thurai, estimant que PagerDuty domine encore 70 à 80 % du marché de la gestion des incidents. « Si [Datadog] réussit, il s’agit d’un marché potentiel énorme pour eux. S’il n’est peut-être pas possible de “débaucher” les clients de PagerDuty, [certains] d’entre eux pourraient être ouverts à une combinaison avec l’observabilité de Datadog. Seul l’avenir nous le dira ».

Datadog étend l’automatisation de la sécurité et défie les géants du secteur

Dans le domaine de la sécurité, Datadog Security a ajouté l’analyse sans agent à son outil de gestion de la sécurité dans le cloud (Cloud Security Management). Cette nouvelle fonctionnalité, disponible de manière générale, alimente automatiquement l’interface Security Inbox du produit avec une liste de problèmes de sécurité classés par ordre de priorité. Les utilisateurs peuvent cliquer sur les problèmes individuels mis en évidence par l’analyse sans agent pour voir une nouvelle visualisation de la carte du contexte de sécurité comprenant un bouton de remédiation.

Parmi les options de remédiation que les utilisateurs peuvent invoquer dans le flux de travail de Cloud Security Management, il y a la possibilité d’effectuer une pull request d’infrastructure as code (IaC), générée automatiquement, afin de résoudre un problème. Les utilisateurs ont également la possibilité d’envoyer des messages à d’autres membres de leur organisation via Slack ou de créer des tickets Jira pour lancer la remédiation.

Datadog Security s’est encore étoffé pour inclure les tests interactifs de sécurité des applications (IAST) dans un nouveau produit livré cette semaine sous le nom de Datadog Code Security. Cette solution vient s’ajouter à un nouvel outil d’analyse de la composition des logiciels, Datadog SCA, lancé en février, pour s’attaquer à la partie la plus à gauche des pipelines DevSecOps.

« L’autoremédiation IaC est un grand pas vers un flux de travail de remédiation plus convivial et sans friction pour les développeurs, plutôt que de simplement créer un ticket Jira ou un message Slack », déclare Katie Norton, analyste chez IDC. « Je ne dirais pas que c’est révolutionnaire, mais cela suit certainement une tendance, qui consiste à fournir aux développeurs à la fois le contexte et la correction dans leurs outils de base et à rendre le processus de remédiation beaucoup moins chronophage ».

« Il est également intéressant de voir Datadog détendre ses fonctionnalités IAST et [d’ajouter] de meilleures informations au niveau du code pour renforcer leur compréhension de l’application en cours d’exécution », ajoute-t-elle.

Datadog est issu du secteur de la gestion des performances des applications (APM) et semble principalement se concentrer sur la sécurité des applications, tandis que les fonctions d’automatisation de la sécurité de Cisco-Splunk sont issues de la surveillance des logs d’infrastructure et s’adressent aux analystes SOC. Le duo Cisco-Splunk, leader sur le marché du SIEM, a déjà l’oreille des acheteurs des grandes DSI.

Mais Datadog semble prêt à conquérir de nouveaux territoires sur le marché de l’automatisation de la sécurité sous la houlette de Sara Varni. La directrice du marketing de Datadog, embauchée en février, a précédemment occupé des postes de direction chez Twilio et Salesforce, selon Stephen Elliot.

« [Datadog] prétend avoir 6 000 clients qui utilisent un ou plusieurs de ses produits de sécurité », poursuit l’analyste d’IDC. « Mais Datadog doit continuer à accroître sa notoriété. Les clients ignorent souvent ce qu’ils proposent. Leur nouveau CMO devrait jouer un rôle majeur à cet égard ».

Datadog n’est pas le seul à vouloir devenir la principale source de contrôle de l’automatisation informatique pour les entreprises. La croissance de la norme OpenTelemetry pour la collecte de données d’observabilité a plus que jamais facilité le changement de fournisseur pour des directions IT en pleine tendance à la consolidation.

OpenTelemetry modifie les habitudes des éditeurs

Prenons l’exemple de GitHub. L’éditeur du célèbre logiciel de gestion de versions décentralisé, appartenant à Microsoft, a entamé la migration vers des collecteurs Open Source OpenTelemetry derrière son outil APM existant, dès qu’une première version du framework est devenue accessible en mai 2021. Lorsque OpenTelemetry a atteint la disponibilité générale en 2022, GitHub a commencé à transférer toutes ses centaines de services d’application. Le processus s’est poursuivi jusqu’en juillet 2023.

En raison de cette migration à long terme, le passage de sa précédente plateforme APM (utilisée pendant sept ans) à Datadog a pris quatre mois, selon Michele Titolo, ingénieure logiciel principale chez GitHub, au cours d’une présentation de Datadog DASH.

« Il s’est écoulé quatre mois entre le moment où nous avons pensé à migrer et celui où nous avons effectué la migration vers la plateforme [Datadog] », déclare-t-elle. L’ingénieure n’a pas cité le nom de l’éditeur de l’ancienne solution APM. « C’est là toute la puissance d’OpenTelemetry et de l’utilisation d’outils agnostiques ».

Datadog a intégré l’utilitaire OpenTelemetry Collector dans son agent Datadog. Cette fusion de moyens de collecte de données ajoute une orchestration des flottes et un support de niveau entreprise, une instrumentation automatique et un contrôle fin des données OpenTelemetry,

Les usagers peuvent toujours apporter leur propre collecteur OpenTelemetry s’ils le souhaitent. Selon Gregg Siegfried, analyste chez Gartner, cette intégration présente une valeur potentielle importante pour les entreprises.

« D’autres éditeurs dans ce domaine œuvrent à concevoir des choses similaires – la gestion centrale des collecteurs – dans le cadre de leur plateforme d’agent », constate Gregg Siegfried. « Il est possible que la dépendance à l’égard des agents [des éditeurs] diminue avec le temps, à mesure que davantage de charges de travail migrent vers OpenTelemetry. Mais maintenant que nous en sommes à une étape intermédiaire, il s’agit là d’une excellente option », juge-t-il.

Pour approfondir sur Administration et supervision du Cloud

Close