Worawut - stock.adobe.com

IA agentique : Datadog jauge l’intérêt des clients

Lors de son événement DASH 2025, Datadog a sans surprise mis l’accent sur ses annonces dédiées à l’IA générative et agentique. Hormis ses assistants IA, beaucoup de fonctionnalités sont encore en préversion. De fait, ses clients sont tiraillés quant à leur stratégie IA, tandis que l’éditeur n’a pas fixé la tarification de ses agents IA.

Dès 2023, l’éditeur new-yorkais fondé par deux Français a dépeint sa volonté d’observer de bout en bout la pile technologique dédiée à l’IA générative chez ses clients. D’un côté, il prône une observabilité des applications GenAI « par défaut », de l’autre il met les grands modèles de langage au service de ses usagers.

Sa solution Observability LLM a d’abord couvert la supervision des appels aux grands modèles de langage, leur coût, leur performance, leur sécurité et leur pertinence.

Mieux sélectionner les LLM avant leur déploiement en production

L’éditeur s’attaque désormais aux évaluations des LLM. En préversion, LLM Experiments doit permettre d’utiliser des données de préproduction, de production ou synthétiques, afin de tester les performances de différents LLM dans un cas d’usage spécifique. Précision de l’usage des outils, pourcentage de réponses correctes, durées, nombre d’appels, coûts estimés, versions de prompts…, l’ensemble de ces éléments de comparaison doivent servir à un examen continu du LLM sélectionné et de l’état de l’art. « Suivant l’application d’IA que l’entreprise veut développer et sa complexité, cela lui permet de décider si elle met la priorité sur le coût, la performance, ou le nombre de requêtes qu’un LLM peut gérer », déclare Yrieix Garnier, vice-président des produits, supervision de l’infrastructure, plateforme et data science chez Datadog auprès du MagIT.

Pour les entités qui entraîneraient leurs modèles ou qui les déploieraient eux-mêmes sur des instances cloud ou on-premise, Datadog avait promis la surveillance des charges de travail GPU. En ce sens, l’éditeur lance la préversion limitée (pour des clients triés sur le volet) d’une fonction permettant d’observer les clusters, la santé des hôtes, l’allocation des GPU, le niveau de performance, les coûts associés, les goulets d’étranglement ou encore la performance du réseau. Dans cette première phase, Datadog semble vouloir superviser les charges de travail hébergées sur Azure, GCP, AWS, CoreWeave et Lambda sur des clusters Nvidia, AMD et ceux équipés des puces Trainium et Inferentia chez AWS.

LLM Observability a également été étendue afin de suivre les requêtes au sein des applications d’IA générative – par exemple des chatbots –, en prenant en charge des frameworks comme LangChain.

Chaque interaction avec un LLM est considérée comme une trace. « Nous avons voulu aller plus loin pour les développeurs en proposant un “flame graph” détaillé : un appel à un LLM est rarement isolé, il en appelle d’autres, il appelle des outils, etc. », relate Yrieix Garnier.

Maintenant, il faut pouvoir superviser les agents IA. Or, comme le précisent les ingénieurs de Datadog, les flame graphs « fonctionnent bien pour analyser les performances dans les systèmes linéaires et synchrones ». Les agents IA sont soumis à des logiques de branches, de concurrence, de tentatives. Bref, ils sont « non linéaires ».

Affiner l’observabilité des agents IA « maison » et « sur étagère »

Datadog est donc en train d’adapter sa plateforme aux logiques spécifiques de chaînage et de suivi de LangGraph, CrewAI, le SDK Agent d’OpenAI et celui d’Amazon Bedrock.

« Le SDK LLM Observability capture les opérations intra et inter-agents, y compris l’utilisation d’outils, les appels LLM, les interactions de mémoire et les transfèrent automatiquement à travers les frameworks pris en charge », affirment les porte-parole de Datadog. « LLM Observability fait correspondre les flux basés sur le DAG de LangGraph, les chaînes de rôles/tâches de CrewAI et les abstractions de planification d’OpenAI à un modèle de données unifié, ce qui garantit des traces cohérentes et interprétables, quel que soit le mode d’orchestration de votre système agentique ».

« Cela permet de répondre à des questions comme : “si j’ai un agent qui appelle un autre agent, est-ce le bon ? Y a-t-il des erreurs ? Combien de fois appelle-t-il le second agent ? Y a-t-il un risque de boucle infinie ?” »
Yrieix GarnierV-P produits, supervision de l’infrastructure, plateforme et data science, Datadog

Cette fonctionnalité en accès anticipé permet de visualiser les appels aux LLM et aux outils à travers un arbre qui reflète les enchaînements, les entrées et les sorties, les temps de latence qu’il est possible de comparer avec le « manifeste » de l’agent – c’est-à-dire l’ensemble des fonctions et tâches qu’il doit accomplir.

« Cela permet de répondre à des questions comme : “si j’ai un agent qui appelle un autre agent, est-ce le bon ? Y a-t-il des erreurs ? Combien de fois appelle-t-il le second agent ? Y a-t-il un risque de boucle infinie ?” », commente Yrieix Garnier. Cette fonctionnalité est, pour l’instant, réservée aux agents créés par les entreprises à l’aide des outils open source et propriétaires disponibles sur le marché.

Datadog propose la préversion de la console AI Agents pour les produits comme Cursor, GitHub Copilot, ou comme les agents « sur étagère » (Salesforce Agentforce, ServiceNow AI, Azure SRE), ainsi que pour les fonctions computer use d’Anthropic et Operator d’OpenAI. Elle doit permettre de superviser les interactions des agents IA tiers et de ceux développés en interne avec le reste du SI de l’entreprise, tout en s’assurant de la posture de sécurité de l’organisation au regard de ces outils. Nombre de sessions, taux d’erreur, usagers actifs, coûts : le tableau de bord présenté par Datadog est pour le moment relativement chiche en information.

Il faut dire qu’en matière d’IA agentique, la question du « make or buy » n’a pas encore de réponses fermes au sein de la plupart des entreprises.

« C’est encore très nouveau [pour les entreprises] », considère Yrieix Garnier. « Je pense que nous sommes un peu en avance, mais nous poussons pour que – lorsqu’elles commencent à développer ou à adopter des systèmes agentiques – les entreprises pensent à l’observabilité dès le départ ».

Les éditeurs comme Salesforce ou ServiceNow incluent, eux aussi, des outils de supervision dans leur suite agentique. Ce ne serait pas un problème pour Datadog, selon le vice-président des produits. « Dans l’offre d’AWS, il y a Cloudwatch, mais nos clients veulent tout de même utiliser Datadog, parce qu’ils peuvent avoir une observabilité multicloud et davantage de détails », compare-t-il.

Les premiers agents IA de Datadog

Datadog introduit également ses propres agents au sein de sa plateforme à travers la marque Bits AI. Jusqu’alors, Bits AI rassemblait les assistants et des fonctionnalités d’IA générative. Le premier agent de Datadog, Bits AI SRE, est en disponibilité limitée. Comme son nom l’indique, cet agent IA est réservé aux ingénieurs de fiabilité sur site. Il doit automatiser l’investigation d’alertes ou d’incidents, analyser en parallèle les logs, les traces et les métriques. Il peut être connecté à des bases de connaissances et à l’environnement Datadog pour saisir le contexte d’une application ou d’un service. Il peut être intégré à Datadog On-Call ou Slack pour prévenir les équipes concernées. « Bits AI SRE cherche à identifier la cause profonde d’un problème et fournit potentiellement des recommandations pour le résoudre à travers un message “post-mortem” », précise Yrieix Garnier.

Datadog a également dévoilé la préversion de Bits AI Dev Agent. Lui sera en mesure d’ingérer des logs, des traces, des métriques, des événements RUM (Real User Monitoring), des signaux de sécurité ainsi que des variables des moteurs d’exécution, pour détecter d’éventuels problèmes dans une base de code et de recommander des corrections. Ces « fixes » peuvent faire l’objet de pull requests, afin de pousser le code corrigé, en s’appuyant sur les logs de Datadog CI ou de GitHub Actions, « jusqu’à qu’elles passent les tests unitaires ». « Nous faisons à peu près la même chose à travers notre intégration avec Cursor », ajoute le vice-président produits. Pour les besoins de cette intégration, l’éditeur a déployé son serveur MCP (Model Context Protocol). Celui-ci sera ouvert pour d’autres usages.

En préversion aussi, Bits AI Security Analyst est raccordé à Datadog Cloud SIEM. Ici, il s’agit de trier les signaux en provenance des règles de détection suivant leur importance, de les analyser en s’appuyant sur le framework MITRE ATT&CK, de les contextualiser et de suggérer des correctifs ou d’enclencher l’exécution de flux d’actions au sein du SOAR. Pour l’instant, l’agent ne prend en charge que les données en provenance d’AWS CloudTrail.

D’après Yrieix Garnier, Bits AI SRE serait largement utilisé chez Datadog. Ce n’est pas encore le cas chez les clients.

Selon les propos recueillis par SearchITOperations, une publication sœur du MagIT, des clients, dont l’entité d’édition de logiciels financiers et juridique de Thomson Reuters, ont pu tester les assistants Bits AI et obtenir des résultats satisfaisants.

« Tout le monde se pose la question, mais pour l’instant c’est tout de même assez contrôlé par des humains. »
Yrieix GarnierV-P produits, supervision de l’infrastructure, plateforme et data science, Datadog

« Nous l’avons utilisé sur certains de nos comptes et il s’est avéré très rapide ; [l’assistant Bits AI] a permis de réduire de manière significative le temps nécessaire pour trouver un problème », témoigne Bert Stewart, responsable du centre de commande international chez Thomson Reuters.

Le directeur est enthousiaste quant à la disponibilité future des agents IA de Datadog. Il y a toutefois une inconnue majeure : le prix. « C’est très intéressant, mais quand Datadog lance des produits, on ne sait pas combien cela va coûter ».

D’autres usagers ont exprimé des craintes au regard des potentiels biais que peut introduire l’analyse automatisée des données de télémétrie par de grands modèles de langage, dont les réponses sont en grande partie non déterministes.

« Tout le monde se pose la question, mais pour l’instant c’est tout de même assez contrôlé par des humains », répond indirectement Yrieix Garnier de Datadog.

Pour approfondir sur IA appliquée, GenAI, IA infusée