Andrii Yalanskyi - stock.adobe.c
Datadog met en évidence les inefficiences des déploiements de la GenAI
Si les entreprises adoptent de plus en plus fortement l’IA générative et agentique, Datadog constate que les déploiements actuels, en PoC ou en production, sont sous optimisés chez ses clients.
Dans un rapport intitulé « State of AI Engineering 2026 », Datadog évalue la maturité des entreprises en matière d’IA agentique.
Ici, point d’études déclaratives. L’acteur de l’observabilité peut, comme ses pairs et concurrents, refléter les usages réels des entreprises à partir d’échantillons représentatifs (logs, traces, métriques). Ces données couvrent un peu plus d’un millier de ses clients.
D’emblée, l’éditeur fait la distinction entre ce qu’il baptise des « applications IA », c’est-à-dire des services qui font des appels aux LLM et des agents IA, des « sous-ensembles qui utilisent un flux de contrôle en plusieurs étapes, l’exécution d’outils ou des appels de service multiples ».
OpenAI demeure le fournisseur de LLM le plus populaire chez les clients de Datadog
Dans la catégorie agent, les données collectées en mars 2026 tendent à démontrer que l’ordre du classement des fournisseurs de LLM privilégiés par ses clients n’a pas changé depuis un an. OpenAI représente 63 % des appels LLM, suivi par Anthropic (23 %) et Google (20 %). Les autres –, Mistral AI, Cohere, les contributeurs open source – se partagent 4 % des appels restants.
OpenAI a bien perdu 12 points de pourcentage chez les clients de Datadog par rapport au mois de mars 2025. Pour autant, en un an, ils seraient plus du double à recourir aux modèles d’IA de la société dirigée par Sam Altman.
Dans un même temps, la part de clients qui exploite trois modèles ou plus atteint 70 %, contre 56 % en mars 2025.
Si c’est le signe d’une plus grande maturité en matière de gestion des coûts, des projets et des risques, cela entraîne des défis techniques. Ils sont principalement liés au fait de jongler avec plusieurs API. D’autant que les LLM peuvent être rapidement retirés du marché.
Parmi les modèles les plus utilisés par ses clients, l’éditeur liste principalement GPT-4o, Claude Sonnet 4.5, Gemini 2.5 Flash, GPT-5.2, Claude Sonnet 4.6, Gemini 3 Flash et GPT– 5.4.
De ceux-là, en mars 2026, GPT-4o était le plus fréquemment présent dans les données collectées, alors même que sa fin de support est déjà prévue et qu’il n’est plus disponible depuis ChatGPT.
Et Datadog de recommander l’adoption de passerelles pour piloter le trafic en provenance des API des LLM. Cela permettrait de gagner en flexibilité, en supervision technique et économique.
« Nous suggérons également à nos clients d’opter pour des modèles ouverts autohébergés », signale Pejman Tabassomi, Field CTO EMEA chez Datadog, auprès du MagIT.
Le responsable technico-commercial note toutefois que l’hébergement de LLM n’est pas aisé. « Les problèmes ne sont pas nouveaux, mais il faut réfléchir à la taille des instances et établir correctement une architecture qui tient la charge ».
D’où le lancement en disponibilité générale de GPU monitoring, une solution pour suivre finement la consommation de ressources de calcul au sein des clusters alloués. Elle doit permettre également de tracer les requêtes en échec, d’optimiser les flottes de GPU, etc.
Le choix d’un cluster GPU peut se justifier pour des raisons de coût quand le trafic est important et pour des raisons de confidentialité, selon Pejman Tabassomi. « Le nerf de la guerre reste les données financières ».
Les frameworks agentiques gagnent en importance, mais ne sont pas légion
Quant à l’adoption des frameworks agentiques – LangChain, SDK Vercel AI, Langraph, CrewAI, etc. – seulement 18 % des clients de l’éditeur en utilisent. Les services agentiques ne sont utilisés que par 2 % des usagers. C’est dans les deux cas le double par rapport à mars 2025. Dans un même temps, Datadog laisse à penser que la manière dont ces outils génèrent des données de télémétrie n’est pas encore simple à collecter et à analyser.
« Tout le monde parle d’IA agentique, de flux de travail automatisé. Malgré cet intérêt, il y a encore beaucoup de prototypes », souligne Pejman Tabassomi. « Il y a néanmoins un début de maîtrise qui mène les entreprises sur le chemin de la production. Cela n’est pas tout à fait acquis, puisque cela pose aussi des enjeux techniques, réglementaires ou financiers ».
Des system prompts de plus en plus massifs
Là où le bât blesse actuellement, c’est la sous-optimisation du contexte. Pas moins de 69 % de tous les tokens trouvés dans les traces des clients sont attribuables aux system prompts.
Un system prompt rassemble à la fois les instructions clés pour une application cible, des règles à faire respecter au modèle et la configuration des appels aux outils.
« Cela semble indiquer que la majeure partie des dépenses en ingénierie de contexte chez les clients de Datadog est consacrée à l’optimisation des prompts systèmes récurrents dans des solutions agentiques fortement structurées », estime l’éditeur. « Les équipes devraient raccourci ces system prompts dans la mesure du possible afin de réduire la consommation de tokens […] ».
Pire, seulement 28 % des appels font référence à la lecture de tokens mis en cache. En clair, les prompts utilisateur et système sont revus par le modèle à chaque appel.
Outre le recours à cette mise en cache (et ses tarifs plus agressifs), Datadog recommande de réorganiser les requêtes afin que les LLM détectent bien les préfixes qui permettent cette réutilisation.
Une sous-utilisation de la mise en cache
Dans un même temps, le nombre médian de tokens transmis par requête a plus que doublé en un an. Il passe de 2058 en mars 2025 à 5251 tokens en mars 2026.
Datadog ne l’écrit pas noir sur blanc, mais les tests d’Artificial Analysis tendent à démontrer que ce n’est pas la seule faute des développeurs. Oui, les prix baissent ou stagnent. En parallèle, les LLM consomment plus de tokens pour les mêmes tâches. L’éditeur, lui, constate que le phénomène risque d’empirer au fur et à mesure que les entreprises font appel à des outils, un plus grand nombre de documents, des garde-fous, etc.
D’où la nécessité d’améliorer la qualité du contexte. Il faudrait pour cela s’appuyer sur des techniques de recherche avancées, de synthétisation, de déduplication, et de hiérarchisation des informations.
Un ensemble de techniques à expérimenter
En moyenne, seulement 2 % des appels aux LLM collectés ont renvoyé vers une erreur. Cela représente tout de même 8,4 millions d’appels en mars 2026. Environ 30 % de ces échecs sont dus à l’atteinte des quotas imposés par les LLM, tandis que 8 % renvoient vers des erreurs 400 et 5 % vers des erreurs 500.
Les pics seraient dus à la mauvaise configuration des boucles agentiques.
« Les prompts et la logique applicative doivent être conçus de manière à éviter les pics et la dispersion des outils », expliquent les ingénieurs de Datadog. « Parallèlement, les équipes chargées des plateformes doivent intégrer des systèmes de file d’attente, des mécanismes de temporisation et des capacités de secours dans les environnements d’exécution centraux des applications LLM ».
D’où l’intérêt d'instaurer des budgets de tokens ou de nombre d’appels d’outils afin d’éviter les « boucles incontrôlées ».
« Finalement, le problème du monitoring reste entier », conclut Pejman Tabassomi.
Évidemment, l’entreprise prêche pour sa paroisse. Toutefois, la mise en place de quotas plus stricts au sein de certains services – Claude.ai et Claude Code chez Anthropic, Copilot chez GitHub – et la multiplication des frameworks censés optimiser la consommation de tokens semblent lui donner raison.
