buchachon - Fotolia
L’harness engineering, une architecture critique de l’IA agentique
L’ingénierie du harnais donne aux entreprises un cadre permettant de mettre en œuvre l'IA agentique grâce à l'orchestration, la gestion de la mémoire, les garde-fous et l'observabilité en exécution.
Le cycle de développement appliqué à l’IA évolue rapidement. En trois ans, les discussions sont passées de la création de prompts, puis de l’ingénierie contextuelle à l’ingénierie du « harnais ». Le « harnais » – c’est-à-dire l’architecture logicielle qui entoure le modèle – représente la toute dernière approche qui doit permettre de mettre en œuvre avec succès un système d’IA agentique et de gérer la complexité des modèles.
De plus en plus, les métiers en entreprise, les ingénieurs et les responsables informatiques cherchent à mobiliser des agents en toute sécurité et à les déployer à grande échelle dans divers scénarii. Les projets concernent désormais les chaînes d’approvisionnement d’entreprise, la gestion des services informatiques (ITSM) ou encore les processus RH. Les avantages vont bien au-delà d’un simple échange de requêtes et de réponses pour s’étendre à l’interfaçage avec des systèmes externes et à la structuration de flux de travail en plusieurs étapes. Une étude récente de Gartner indique que 60 % des entreprises déploieront l’IA agentique d’ici 2028.
Qu’est-ce que l’harness engineering et comment se distingue-t-elle de l’ingénierie contextuelle ?
Un agent efficace et bien conçu peut intégrer des données externes, résoudre de manière autonome des problèmes complexes et mémoriser le contexte au fil du temps pour améliorer son fonctionnement.
L’ingénierie contextuelle vise justement à maintenir cette mémoire au-delà de la fenêtre de contexte du modèle. S’il reste encore beaucoup à faire, la majorité des mécanismes pour invoquer des informations à retenir à court, moyen et long terme émergent. Mise en cache, bases de données vectorielles, systèmes RAG, sauvegarde des états, découpage de la documentation en fichiers Markdown, etc., sont autant de possibilités encore à maîtriser.
L’ingénierie du harnais (« harness engineering ») englobe cette approche, ainsi que l’ingénierie des prompts en permettant aux agents IA d’assembler dynamiquement les bons outils pour leurs tâches assignées, plutôt que de s’appuyer sur une configuration statique au démarrage. Cet article examine les composants clés de l’harness engineering, les avantages de son adoption et les mesures que les responsables IT peuvent prendre pour mettre en œuvre cette approche dans leurs environnements.
Les éléments clés de la couche de gestion des agents IA
La couche de gestion induite par l’harness engineering comprend des architectures système, des garde-fous et des boucles de rétroaction qui encadrent un agent IA. Il s’agit de le rendre autonome, fiable, sûr et réactif dans les environnements de production. Les développeurs et les ingénieurs doivent minimiser leur intervention à l’ajout de contraintes et à la mise en place de tentatives de reprise pour détecter les étapes ayant échoué, tels les appels d’outils ou les erreurs d’API.
Il n’y a en soi rien de nouveau depuis deux ans. Des acteurs tels Salesforce ont commencé à déployer ce type d’approche. Les outils, les méthodes et les LLM ont été adaptés à cette méthode de contrôle qui n’a pas immédiatement fait ses preuves. En clair, l’enchâssement des flux non déterministes (exécutés par des LLM) au sein de cadres déterministes (des règles et des structures programmatiques) est désormais plus évident.
Les développeurs responsables de projets de programmation et les ingénieurs impliqués dans le maintien d’environnements de production peuvent s’appuyer sur le harnessing pour gérer l’ensemble du système d’agents. N’étant plus limités à de simples échanges de prompts, ils sont capables d’exécuter des flux de travail en plusieurs étapes. Ils génèrent ainsi des boucles de vérification, séquencent des tâches et exécutent des actions en parallèle, qu’il s’agisse d’améliorer un système RAG (génération augmentée par la recherche) ou de mettre à jour l’interface d’une application. Les cas d’usage liés au back-end sont balbutiants en entreprise. Toutefois, le fameux harnais doit aider à sécuriser les mises à jour des variables de l’infrastructure cloud native.
Les composants essentiels d’un harnais IA
Les quatre piliers des harnais d’IA sont les suivants :
- Perception et entrées sensorielles. Les system prompts constituent le fondement de l’orchestration des agents. Ils permettent de configurer le rôle d’un agent IA, de lui confier des objectifs. Et comme les modèles de raisonnement sont désormais entraînés pour suivre des instructions à la lettre, il n’y a plus de raison pour ne pas les modifier.
- Raisonnement. Un LLM utilise sa fenêtre de contexte pour raisonner, décomposer des tâches complexes et prendre des décisions autonomes.
- Action. Le harnais permet ensuite à un agent IA d’agir et d’exécuter des tâches non triviales. Il a besoin pour cela d’outils (par exemple, des API, de la mémoire, un accès aux données, etc.), un contexte et des environnements. Le protocole le plus couramment utilisé pour ces connexions est le Model Context Protocol.
- « Apprentissage ». Enfin, des boucles de rétroaction cohérentes fournissent le mécanisme permettant à un agent IA de s’améliorer au fil du temps. La méthode la plus répandue consiste à demander à un autre agent d’opérer une révision du code qu’il a généré en lui demandant de vérifier la syntaxe, les dépendances nécessaires, les tests unitaires et d’autres paramètres. Cette phase est obligatoirement complétée par une vérification humaine.
« Concrètement, un harnais IA inclut des systems prompts, des outils, des “skills”, des serveurs MCP et leurs descriptions, l’accès aux systèmes de fichiers, aux sandboxes, à un navigateur, des logiques d’orchestration (la configuration des sous-agents, le routage des LLM, le passage de relais entre les agents et les humains) », explique LangChain, éditeur de framework agentique, dans un billet de blog. Il faut ajouter à cela « des connecteurs vers des middlewares pour des exécutions déterministes (vérification des lints, compression, etc.) ».
Les limites de l’orchestration ad hoc des agents
Justement. De plus en plus, les grands modèles de langage (LLM) effectuent des opérations pour lesquelles ils n’ont pas été spécifiquement conçus, tels que l’écriture de logiciels en plusieurs étapes, l’interrogation de bases de données ou l’analyse de documents volumineux. Si ces bases de code volumineuses et non documentées ne sont pas entièrement maîtrisées en matière de règles et de dépendances, elles peuvent entraîner des actions imprévisibles de la part des agents. Pour atteindre leurs objectifs en matière d’IA, les développeurs et les équipes IT déploient souvent des orchestrations ad hoc, telles que des enchaînements de prompts codés en dur, des scripts Python if/else ou des boucles ReAct (raisonnement et action) sans contrainte.
Cependant, lors de la gestion de ces déploiements, les usagers se heurtent rapidement à des obstacles liés à une mémoire et un contexte insuffisants, ainsi qu’aux limites des outils et à l’incapacité d’effectuer certaines actions externes. Parmi les contraintes supplémentaires, l’on peut citer l’incapacité à structurer les flux de travail en sous-tâches ou à gérer les activités à long terme des agents pouvant s’étendre sur des heures ou des jours.
L’harness engineering promet d’offrir une approche opérationnelle pour effectuer des tâches non triviales, telles que l’intégration de données externes, la résolution de problèmes en plusieurs étapes ou la mémorisation du contexte au fil du temps. Par exemple, les développeurs peuvent déployer un framework agentique – dont Microsoft AutoGen, LangGraph ou Crew.ai –, pour construire et définir l’environnement à travers les outils, les contraintes et le contexte. La constitution d’un harnais offre également la possibilité de permuter de manière transparente les modèles à mesure que de nouvelles itérations sont introduites.
Mettre en œuvre l’harness engineering à l’échelle de l’entreprise
L’ingénierie du harnais marque un changement opérationnel : il ne s’agit plus d’aborder l’IA comme une « boîte noire », mais de la considérer comme un composant gérable au sein d’un environnement structuré. Malgré la nature non déterministe des LLM, les résultats doivent à la fois être reproductibles et vérifiables. À mesure que les organisations formalisent leurs approches en matière d’ingénierie de l’exploitation, elles intègrent des principes fondamentaux clés, notamment :
- Le fait de commencer par des choses simples.
- Utiliser des blocs de base réutilisables.
- Permettre au modèle d’élaborer le plan.
- L’ajout de garde-fous, de tentatives de rattrapage et des vérifications.
De plus en plus, au lieu de dire à voix haute ou d’écrire des prompts, les ingénieurs construisent les environnements dans lesquels l’IA opère. Plus importants encore, ils mettent en œuvre des plateformes d’orchestration multiagents conçues pour inclure des mécanismes de contrôle et d’équilibre « human-in-the-loop » (HITL). Par exemple, un système multiagent dans la fabrication automobile peut intégrer une infrastructure sécurisée comprenant des sandbox isolées appelées par API, des moteurs de simulation, des bases de données CAO et des contrôles de version au sein de workflows orchestrés par des agents.
Chaque agent spécialisé (par exemple, les agents de conception, de simulation, d’optimisation ou de conformité) peut appeler de manière autonome du code externe et modifier les données de production, qui sont ensuite vérifiées à l’aide de contrôles HITL. Les équipes informatiques et les ingénieurs peuvent alors concentrer davantage leurs efforts sur la conception de prompts et d’outils spécifiques à leur domaine.
Les grandes étapes pour l’adoption de harnais agentiques
La mise en œuvre d’un système d’IA agentique débute par une définition précise de son champ d’action, accompagnée d’une liste explicite de règles : ce que l’agent peut et ne peut pas faire. Cet ancrage dans une base de code fournit les contraintes nécessaires à une exécution prévisible.
Viennent ensuite la collecte et la préservation des données fondamentales. La création d’une source unique de vérité – via des fichiers lisibles par les machines – établit le contexte et la configuration dont l’agent a besoin pour opérer de manière autonome.
La mise en place de boucles de rétroaction constitue un autre élément clé tant pour les développeurs que pour les ingénieurs. Alors que les ingénieurs surveillent les boucles ReAct pour détecter les anomalies, les développeurs full-stack s’appuient sur ces cycles d’évaluation pour affiner l’expérience utilisateur, intégrer la logique métier et peaufiner les prompts. De plus, les équipes IT s’appuient sur les boucles de rétroaction pour ajuster leur harnais agentique et empêcher la réapparition de défaillances spécifiques.
La dernière étape consiste à garantir un haut niveau d’observabilité en exécution. Les DevOps peuvent utiliser des plateformes d’observabilité, par exemple LangSmith, ArizePhoenix ou Datadog LLM Observability. Sinon, les équipes de développement peuvent écrire des métriques d’évaluation personnalisées intégrant les logs, les traces et les métriques afin de mieux comprendre le raisonnement du modèle, d’intégrer la gestion des événements et de la sécurité (via une suite SIEM) ainsi que le contrôle des coûts. Si la boîte noire demeure, ce qu’elle produit peut être contrôlé. Sans oublier qu’Anthropic et les autres laboratoires de recherche explorent des moyens scientifiques pour expliquer finement les décisions de ces réseaux de neurones.
Pour approfondir sur IA appliquée, GenAI, IA infusée
-
Projet Glasswing : la détection des vulnérabilités dépasse les capacités humaines de traitement
-
Datadog met en évidence les inefficiences des déploiements de la GenAI
-
Anthropic gère désormais l’infrastructure pour les agents IA
-
DevSecOps : Harness infuse un « pare-feu » dédié aux dépendances logicielles
