Lors de la première journée scientifique du sommet pour l’action sur l’IA, les responsables des laboratoires R&D d’IBM, de Google, de Microsoft et d’autres ont posé les limites actuelles des agents IA. Une approche technologique certes prometteuse, mais qui pose différents problèmes.
Magie du marketing. Les chatbots d’hier sont devenus des agents IA. La pratique est douteuse, mais malheureusement acceptable. Vus de loin, les agents sont des LLM capables d’accomplir des actions.
Les dirigeants des laboratoires de recherche de Google DeepMind, d’IBM et Microsoft Research sont d’accord. L’appréhension de cette technologie doit évoluer. C’était l’un des éléments évoqués lors de la conférence « AI, Science & Society » organisée à l’École Polytechnique dans le cadre du sommet de l’action sur l’IA orchestré par l’Élysée.
Agent IA, une définition et des interprétations
À commencer par sa définition. « Aujourd’hui, tout devient un agent », observe David D. Cox, vice-président des modèles IA chez IBM Research. « Nous parlons souvent d’IA agentique dans le domaine, mais je pense que nous n’avons pas encore une définition claire de ce que cela signifie exactement ».
« Nous parlons souvent d’IA agentique dans le domaine, mais je pense que nous n’avons pas encore une définition claire de ce que cela signifie exactement ».
David D. CoxVice-président des modèles IA chez IBM Research
Selon, Ece Kamar, vice-présidente et directrice du laboratoire AI Frontiers, chez Microsoft Research, un agent est une entité capable de comprendre des objectifs de haut niveau et d’établir une liste d’actions et de les exécuter, sous la supervision d’un être humain ou de manière autonome.
Chez les éditeurs, un agent n’est (dans la plupart des cas) rien de plus qu’un grand modèle de langage doté d’outils : appel de fonction, RAG, exécution de code, recherche sur le Web. Cependant, un modèle est limité par sa fenêtre de contexte et peut encore avoir du mal à gérer des instructions complexes.
Pour pallier ce problème, le laboratoire dirigé par Ece Kamar a été l’un des premiers à développer des frameworks multiagents : Autogen, puis Magellan. Dans ce cas-là, un agent est un LLM doté d’un outil qui accomplit une tâche bien particulière. Il confie le résultat de sa tâche à un autre agent et ainsi de suite. Un essaim d’agents peut être orchestré par un autre LLM. C’est également l’architecture choisie par Salesforce pour propulser ses produits « agentiques ».
Les architectures multiagents peuvent aussi servir à limiter les hallucinations et certains problèmes. C’est typiquement ce qu’a développé le géant du CRM avec son « Einstein Trust Layer ». AWS développe un système multiagent similaire, mais y place un moteur neuro-symbolique – un moteur de règles – à sa tête. Dans les deux cas, une validation humaine des processus est souhaitée et encore nécessaire.
Les promesses et les soubresauts des modèles de raisonnement
L’arrivée des modèles de raisonnement, justement capables de planifier des tâches en sus d’activer ces outils, nous rapproche de l’objectif souhaité d’une plus grande automatisation dans le monde réel, note Ece Kamar.
Pour autant, la manipulation des outils les plus avancés, la navigation autonome sur le Web, la validation de processus sont encore balbutiantes. Et problématiques.
« Avec l’apparition de modèles tels que o1 et o3-mini d’OpenAI ou DeepSeek-R1, capables de prendre en charge des tâches complexes et de les décomposer en étapes exploitables, nous constatons que ces agents deviennent plus créatifs dans la manière dont ils agissent », observe-t-elle. « Ils peuvent même commencer à agir au-delà de nos attentes ou des limites opérationnelles que nous n’avons pas encore définies pour ces systèmes autonomes ».
Et de prendre pour exemple une expérience menée par ses soins. « J’ai demandé à un agent d’aller sur la page Web du New York Times consacrée aux mots croisés afin de remplir une grille à ma place », raconte-t-elle. « Une fois sur le site du NYT, une fenêtre contextuelle est apparue. Elle demandait le mot de passe pour y entrer. L’agent a vu un lien permettant de le réinitialiser. Il ne connaissait pas mon mot de passe, mais il pouvait entrer mon mail et accéder à mon compte de messagerie. L’agent a trouvé un moyen de réinitialiser mon mot de passe [pour accomplir sa tâche] ».
Des contrôles à mettre en place
Ce scénario est typiquement ce que tente d’éviter OpenAI avec Operator et Anthropic avec Computer Use. Des outils partiellement mis à la disposition des utilisateurs. S’il s’agit d’un risque incontestable. Le fait de le mettre dans les mains d’une plus large audience (néanmoins avertie) permet de lister un plus grand nombre de problèmes potentiels. Et de tenter de les résoudre.
« Je pense donc que nous entrons dans une nouvelle ère où nous devons être excessivement responsables dès le départ et réfléchir à tous les mécanismes de défense que nous devrons mettre en place pour nous assurer que ces agents se comportent de manière adéquate, sous notre contrôle », anticipe Joëlle Barral, directeur de la recherche et l’ingénierie chez Google DeepMind.
Emmanuel Candès est professeur de statistiques et d’ingénierie électrique à l’université de Stanford. Lui croit qu’une partie de la réponse se trouve dans le contrôle statistique de la qualité des résultats des agents.
« Le contrôle statistique de la qualité est, par exemple, ce qui a amélioré les progrès dans la fabrication au Japon dans les années 1950 », affirme-t-il. « Nous avons besoin d’indicateurs statistiques pour quantifier à quel point nous sommes certains qu’une IA a correctement automatisé une tâche ». Dans l’idée, les humains sont toujours nécessaires pour valider l’une ou l’autre des options proposées par un agent. C’est typiquement ce type de dispositif qui est employé pour évaluer la qualité des réponses des LLM dans les applications types ChatGPT.
Outre le fait d’identifier des règles, de les appliquer et de contenir les agents à des « limites opérationnelles », David D Cox évoque la nécessité de prendre en compte un ensemble de vulnérabilités inédites. « Un agent peut involontairement exposer des informations obtenues ailleurs, puisqu’un LLM met en cache un ensemble de données », note-t-il. « Cela demande de repenser ou de réapprendre certaines pratiques de sécurité ».
Agents ou programmes informatiques ?
Mais la définition d’agent pose un autre problème. Une entité capable de planifier et d’exécuter des tâches « n’est rien d’autre qu’un programme », lance David D. Cox. « Je pense que l’on a un peu tendance à vouloir personnifier les choses parce que cela semble être le bon modèle dans certains cas. Je pense que cela peut être trompeur. Il peut nous conduire à des comportements inattendus ».
« Le grand public est aujourd’hui largement confus face à l’IA. Cette éducation manque encore, et chacun se forge sa propre interprétation de l’IA, sans définition unifiée. »
Eric XingPrésident de l'université d'IA Mohamed bin Zayed
Selon Eric Xing, président de l’université d’IA Mohamed bin Zayed et professeur de sciences computationnelles à Carnegie Mellon, cela révèle d’un problème d’éducation plus large.
« Le grand public est aujourd’hui largement confus face à l’IA », affirme-t-il. « Est-ce une créature intelligente vivant dans un ordinateur ou simplement une calculatrice évoluée ? Cette éducation manque encore, et chacun se forge sa propre interprétation de l’IA, sans définition unifiée », poursuit-il. « Notre système éducatif, des universités aux cycles inférieurs, ne traite pas encore l’IA comme une ressource fondamentale. Il est donc essentiel d’adopter une approche plus calme, rationnelle et claire pour comprendre cette technologie et ses capacités ».
Pour approfondir sur IA appliquée, GenAI, IA infusée