L’IA générative s’immisce dans les plateformes de monitoring

Datadog, Honeycomb, Splunk, New Relic et Dynatrace ont tous annoncé leur intention d’adosser un modèle d’IA générative à leur plateforme d’observabilité. Des agents conversationnels qui doivent encore prouver leur utilité et trouver leur public. Des solutions qui posent également des défis supplémentaires aux éditeurs et à leurs clients.

Lors de sa conférence DASH, Datadog a présenté (en bêta privée) Bits AI, une interface pour interagir en langage naturel avec ses outils d’observabilité. Bits AI sera disponible depuis une application mobile, sur Slack ou depuis le front-end Web de Datadog.

Premièrement, cet assistant corrèle les données issues de la plateforme comme les ressources, les logs, les traces, les métriques, les événements, les transactions RUM, les signaux de sécurité ainsi que les estimations de coût liées à l’exécution des instances cloud. Deuxièmement, Bits AI doit générer des corrections de code, des tests synthétiques, des tests unitaires et faciliter la recherche de workflows Datadog. Ces flux servent à automatiser certaines tâches, comme les notifications aux responsables d’un projet, la mise à jour d’une librairie après la publication d’une CVE ou le redémarrage d’un pod.

De manière générale, l’outil doit permettre de diagnostiquer des problèmes et d’identifier leurs étendues, de réaliser ces enquêtes plus rapidement en retrouvant des runbooks Confluence ou des éléments de documentation, de communiquer des résumés sur les avancées concernant un incident, et de rédiger automatiquement le brouillon des postmortems.

Bits AI : l’assistant de Datadog est propulsé par les modèles d’OpenAI

Datadog n’a pas détaillé l’architecture technologique qui sous-tend cet agent conversationnel consacré à l’observabilité. L’éditeur se contente d’affirmer qu’il exploite les modèles d’IA générative d’OpenAI.

« Nous sommes enthousiasmés par le fait que Datadog ait exploité la technologie d’OpenAI pour construire Bits AI, offrant aux clients une nouvelle façon d’extraire des indicateurs de ces données d’observabilité », déclare Brad Lightcap, COO d’OpenAI, dans un communiqué de presse. « En tant que client de Datadog, nous savons que la gestion d’une infrastructure cloud à l’échelle nécessite la synthèse de quantités massives de données. Bits offre aux ingénieurs un nouvel outil avancé pour résoudre les défis complexes de performance ».

Ce n’est pas réellement une surprise : en mai dernier, Yrieix Garnier, VP produit chez Datadog, affirmait qu’il travaillait en étroite collaboration avec le poulain de Microsoft. D’autant que Datadog n’en était pas à son premier essai en matière d’automatisation. L’éditeur commercialise déjà Watchdog, un outil propulsé par des algorithmes permettant de détecter des anomalies dans les métriques et les logs de certains systèmes et d’en identifier les causes profondes. « Bits AI s’intègre avec Watchdog pour surfacer les anomalies », affirme Kai Xin Tai, responsable produit chez Datadog.

Selon l’éditeur, Bits AI doit exploiter les données en provenance « de toutes les couches des environnements surveillés » par la plateforme d’observabilité, dont celles surfacées par les modules Log Management et APM.

Techniquement, il s’agit de convertir des indications en langage naturel dans la syntaxe de requêtes et de filtrage de Datadog. Il faut également que le modèle puisse comprendre le vocabulaire spécifique aux infrastructures et aux applications des clients de l’éditeur. Selon toute vraisemblance, Datadog a constitué une base de données vectorielle qui renferme les embeddings permettant d’affiner les réponses des modèles LLM d’OpenAI.

« Le contexte est très important pour les grands modèles de langages (LLM). C’est ce qui permet à Bits AI d’apporter des réponses pertinentes au long d’une investigation », insiste Kai Xin Tai.

IA générative et APM : tous les leaders du Magic Quadrant se lancent

Datadog n’est pas le seul à vouloir proposer un agent conversationnel consacré au monitoring. Dynatrace, New Relic, Splunk et Honeycomb – les autres leaders désignés par Gartner dans son Magic Quadrant publié en juillet 2023 – ont annoncé leur souhait d’exploiter l’IA générative.

Si Honeycomb et Splunk ont lancé un « assistant » pour convertir des demandes en anglais dans leur langage de requêtes spécifique, Dynatrace et New Relic affichent les mêmes velléités que Datadog. New Relic a lancé en bêta privé Grok qui, en sus de proposer des fonctions proches de celles de Bits AI, devra identifier les ressources qui ne sont pas instrumentées et améliorer la couverture des alertes. Dynatrace a présenté Davis Copilot, un agent conversationnel fondé sur un LLM maison qui devrait être capable d’interpréter les résultats des algorithmes d’analyses prédictives et causales réunis sous l’appellation Davis AI.

Les acteurs du marché sont unanimement convaincus par l’apport de l’IA générative. Les développeurs semblent l’être en partie. Selon SimilarWeb, le trafic du célèbre site StackOverFlow serait en baisse depuis le mois de mars dernier.

Faire apprendre leur langage de requêtes aux LLMs, un défi supplémentaire pour les éditeurs

Cependant, comme la création de code par les LLM est loin d’être parfaite, la génération de requêtes spécifiques aux outils de supervision demeure un défi majeur pour les éditeurs qui exploitent des langages de requêtes propriétaires. Si Splunk a développé un grand modèle de langage maison, c’est parce que les modèles d’OpenAI hallucinent au moment de générer des requêtes SPL, selon un billet de blog signé par Julien Veron Vialard, Senior Applied ML Scientist chez Splunk.

« ChatGPT/GPT-4 est la seule exception et il souffre toujours d’hallucinations : par exemple, l’invention de nouvelles commandes de recherche ou de nouveaux arguments », écrit-il. « Les hallucinations sont probablement dues au fait qu’il n’y a pas beaucoup d’exemples publics de SPL qui auraient pu être récupérés automatiquement et utilisés dans le cadre de l’entraînement de ces grands modèles », suggère-t-il.

Comme les modèles d’IA générative n’aiment pas le vide, ils généreraient à la place des requêtes dans d’autres langages « mieux représentés dans les données d’entraînement ».

À l’instar de Salesforce, les data scientists de Splunk se sont d’abord penchés sur le fine-tuning du modèle T5 de Google, un transformer établi sur une architecture encodeur-décodeur. « Nous avons affiné une version du modèle à 60 millions de paramètres appelée codet5-small sur environ 2 000 exemples d’entraînement de traduction de l’anglais vers SPL. Un tel ajustement peut être effectué sur un seul GPU V100 pour quelques dollars », précise Julien Veron Vialard. « Nous avons décidé de rafraîchir notre modèle codet5-small en mélangeant différents objectifs d’entraînement (par exemple, écrire une requête SPL à partir d’une description anglaise ou faire l’inverse) et en augmentant notre corpus avec des données générées synthétiquement et “manuellement” par les employés de Splunk », poursuit-il.

Les chercheurs de Splunk se sont notamment inspirés du projet Dolly 2.0 de Databricks. « Il en résulte un jeu de données d’entraînement 300 fois plus important que celui de l’année dernière ».

Pour autant, ce modèle qui propulse actuellement Splunk AI Assistant n’est pas aussi performant qu’espéré. Les data scientists de l’éditeur entendent exploiter les capacités de StarCoder et StarCoder Plus, deux modèles open source consacrés à la génération et à la complétion de code. Ils sont entraînés par le collectif de chercheurs BigCode, né de l’association d’HuggingFace et de ServiceNow. Malgré la nécessité d’employer diverses techniques d’apprentissage et d’optimisation, les résultats obtenus après affinage de ces modèles sont très prometteurs, selon Splunk. Un seul modèle ne suffit pas : les chercheurs entraînent un autre modèle capable de retrouver la documentation liée aux questions des utilisateurs.

Trouver le bon public

Disponible depuis la place de marché de l’éditeur, la préversion de Splunk AI Assistant a été téléchargée 658 fois au moment d’écrire ces lignes.

L’un des arguments phares des éditeurs pour justifier l’exploitation de l’IA générative n’est autre que la possibilité de simplifier l’accès à leurs outils à un plus grand nombre de rôles au sein des départements IT. Les SRE ne seraient plus les seuls garants du monitoring : les développeurs pourraient aussi surveiller de près leur code.

Encore faut-il que les développeurs s’intéressent à de tels outils, remarque Gregg Siegfried, analyste chez Gartner auprès de SearchITOperations, une publication sœur du MagIT.

« Je constate l’émergence d’outils qui tentent de donner aux développeurs un accès aux données [de télémétrie] pour leur permettre de mieux comprendre, voire d’intégrer une meilleure instrumentation dans le logiciel », déclare-t-il. « Mais aucun d’entre eux n’a encore vraiment mis le feu aux poudres ».

Les développeurs, à l’aise avec les langages de programmation, « ont mieux à faire que d’apprendre à utiliser une solution APM », considère-t-il.

De son côté, Datadog cible les « équipes d’ingénierie », sans viser un profil particulier. Les porte-parole répètent à l’envi qu’ils sont convaincus du bien-fondé de la réunion des équipes de développement, des responsables Ops et de la sécurité.

La confidentialité et les coûts, deux enjeux cruciaux pour les entreprises

Un autre point peut freiner le recours à de tels assistants : les possibles collectes et exploitations de données en provenance de données de production.

Si Splunk affirme ne pas utiliser les requêtes et les résultats SPL de ses clients pour entraîner son assistant, sa documentation indique que l’application « récolte des données pour affiner le modèle » et qu’il ne faut pas lui « soumettre des données personnelles, confidentielles ou sensibles ».

Datadog ne précise pas encore l’usage qu’il fait des données de ses clients. Il ne cache toutefois pas la nécessité d’exploiter les données d’exécution, notamment pour suivre les erreurs et générer des correctifs de code. « Au moment d’expérimenter avec le prompt engineering, nous nous sommes rendu compte qu’il ne suffisait pas de nourrir notre modèle des erreurs. Les erreurs sont trop ambiguës », affirme Wissal Lahjouji, directrice des opérations liées aux produits chez Datadog, lors d’un keynote à DASH. « Nous avions besoin de plus. Ce qui est important, ce sont les états d’exécution. C’est l’ingrédient secret […]. Les données d’exécution, dont les variables obtenues à l’aide de notre plateforme d’instrumentation dynamique, sont essentielles [au fonctionnement de l’assistant] ».

Peu importe l’outil propulsé par une IA générative, les entreprises ont tout intérêt à lire les conditions générales d’utilisation au vu du contexte réglementaire.

D’autres, comme le responsable SRE d’un grand groupe financier américain client de Splunk, s’interrogent concernant les coûts d’utilisation de tel service. « Chaque requête au LLM coûtera de l’argent, et multiplié par des milliers d’utilisateurs qui émettent de grandes quantités de requêtes par jour, cela pourrait conduire à des coûts inattendus. Nous aurions besoin de garde-fous avant de nous lancer dans cette aventure », anticipe-t-il auprès de SearchITOperations.

Pour approfondir sur Intelligence Artificielle et Data Science

Close