Getty Images/iStockphoto

Operator : l’agent d’OpenAI navigue sur le Web à la place des internautes

Hier, OpenAI a présenté son concurrent de Computer Use d’Anthropic. Pour l’instant, l’agent Operator se cantonne à la navigation Web. La startup espère recueillir suffisamment de retours pour améliorer ce système largement perfectible.

Hier, OpenAI a présenté son concurrent de Computer Use d’Anthropic. Pour l’instant, l’agent Operator se cantonne à la navigation Web. La startup espère recueillir suffisamment de retours pour améliorer ce système largement perfectible.

Comme les éditeurs, les fournisseurs de LLM se font la course à coup de fonctionnalités. S’il a généralement un train d’avance sur ses adversaires, OpenAI est cette fois-ci le suiveur.

Operator, une réponse à Anthropic

La startup a annoncé le 23 janvier la préversion « scientifique » (research preview en VO) d’Operator. Il s’agit d’un agent capable d’exécuter des tâches sur le Web à la place de l’utilisateur. Cet opérateur est pour l’instant réservé aux abonnés Pro aux États-Unis. Les clients des forfaits Plus, Team et Enterprise pourront y accéder « à l’avenir », tout comme elle sera intégrée dans ChatGPT.

« On peut demander à l’opérateur de s’occuper d’une grande variété de tâches répétitives liées au navigateur, telles que remplir des formulaires, commander des courses et même créer des mèmes », vante OpenAI. Oui, la startup ne veut pas choisir entre le grand public et les professionnels. Les premiers cas d’usage sont pour autant portés vers la première population.

OpenAI collabore avec des entreprises comme DoorDash, Instacart et Uber pour adapter l’opérateur aux « besoins réels », tout en explorant des cas d’usage dans le secteur public, notamment avec la ville de Stockton, en Californie. Il s’agit de simplifier l’accès aux services municipaux.

Computer-Using Agent, le cœur du système

La fonction n’est pas sans rappeler Computer Use d’Anthropic. Et c’est normal : OpenAI s’appuie sur le même principe à savoir opérer un modèle de langage vision – une sous-catégorie de l’IA multimodale. Elle lui confie la capacité d’interagir avec des applications « sans recourir à des API », en lui permettant d’appeler des fonctions depuis une machine virtuelle.

Pour ce faire, OpenAI a appliqué des techniques d’apprentissage par renforcement sur des jeux de données constitués à l’aide de la méthode de « cheminement de pensée » (Chain of Though). Il s’agit de confier des capacités de « raisonnement » à GPT-4o vision pour accomplir des tâches sur le Web.

Le modèle qui en résulte, Computer-Using Agent (ou CUA), a également été entraîné à l’aide de captures d’écran d’interfaces graphiques comprenant des menus, des boutons, des champs de texte. C’est la combinaison des images et des étapes d’interaction décrites à l’aide du Chain of Though qui permet à CUA de prendre plusieurs actions les unes à la suite des autres.

Une fois dans les mains de l’utilisateur, Operator a accès à un clavier et une souris à travers une machine virtuelle pour agir comme un internaute le ferait.

« Perception, raisonnement et actions »

Selon OpenAI, à partir de l’instruction d’un usager, CUA « exécute une boucle itérative qui intègre perception, raisonnement et actions ».

En clair, le modèle traite des captures d’écran en complément du prompt de l’utilisateur. Ensuite, un « monologue intérieur » lui permet de détailler les étapes à suivre et les affiner. Quand cela est nécessaire, il applique les actions – cliquer, scroller, taper – pour passer à l’étape suivante. En théorie, Operator peut gérer plusieurs tâches en parallèle, mais la startup a implémenté une « limite dynamique », probablement dépendante du nombre de tokens/minutes consommés pendant l’exécution. Les tâches peuvent être sauvegardées afin de réutiliser les parcours Web déjà automatisés.

OpenAI a conçu son système pour demander la validation de l’usager au moment d’accomplir des « actions sensibles » : valider un CAPTCHA, entrer un mot de passe, une carte de crédit, etc. Il en va de même quand Operator ne connaît pas l’interface ou qu’il est bloqué. Il reprend la main une fois que l’usager a effectué la tâche qui le bloquait.

Mieux que Computer Use sur le Web

Confronté au benchmark OSWorld, CUA bat le précédent record de Claude 3.5 d’Anthropic avec un taux d’accomplissement de 38,1 %, contre 22 %. Face au test WebArena, CUA obtient un score de 58,1 %, tandis que Claude d’Anthropic affiche un taux de 36,2 %, selon le relevé d’OpenAI. Il y a toutefois une différence majeure entre Operator et Computer Use : le système d’Anthropic doit pouvoir manipuler l’ensemble des applications disponibles depuis la VM, pas seulement le navigateur Web.

Dans les deux cas, l’on reste encore loin des performances humaines. Selon OpenAI, un internaute obtient les scores de 72,4 % sur OSWorld et de 78,2 % sur WebArena. Les autres tests ne sont pas comparables. En cela, le rapport mené par ServiceNow l’année dernière demeure vrai.

Dans sa présentation des résultats de Computer Use, Anthropic faisait preuve de prudence et d’humour.

Des garde-fous à tous les étages

Si OpenAI adopte un ton plus sérieux, la startup ne manque pas de mentionner les faiblesses de CUA et d’Operator. « Comme pour toute technologie à un stade précoce, nous ne nous attendons pas à ce que CUA fonctionne de manière fiable dans tous les scénarios ».

Operator aurait ainsi du mal à gérer la création de diapositives ou la complétion de systèmes de calendriers complexes ou des interfaces hautement personnalisées, illustre le fournisseur.

« Cependant, elle s’est déjà avérée utile dans une variété de cas, et nous visons à étendre cette fiabilité à un plus grand nombre de tâches », assurent les ingénieurs de la startup. « En lançant CUA dans Operator, nous espérons recueillir des informations précieuses de la part de nos utilisateurs, qui nous aideront à affiner ses capacités et à étendre ses applications ».

Il est possible de désactiver l’exploitation des sessions avec Operator pour l’entraînement de CUA, précisent-ils. Les usagers pourraient également supprimer toutes les données des précédentes interactions.

« Nous utilisons à la fois des pipelines de détection automatisée et d’examen humain pour identifier les schémas d’accès suspects qui peuvent être signalés et rapidement ajoutés au système de surveillance. »
OpenAI

En attendant, OpenAI a pris plusieurs mesures pour éviter les débordements. CUA a été entraîné pour refuser les demandes toxiques ou illicites, la startup a bloqué l’accès de manière « préemptive » à des sites de pari en ligne, pornographiques ou de ventes d’armes. La société met en place une modération automatisée et hors ligne afin de faire respecter sa politique d’utilisation.

Quant aux erreurs du système, OpenAI entend les limiter en demandant la confirmation des usagers pour finaliser la tâche, interdit à son agent d’effectuer des transactions bancaires ou de valider l’application à une offre d’emploi. Il impose que l’utilisateur observe le comportement d’Operator quand il est utilisé sur des sites Web « sensibles », comme des boîtes mail.

Dernier point, le fournisseur de LLM a conçu un pipeline pour éviter les injections de prompts sur les sites Web, un autre modèle utilisé comme un LLM as a Judge surveille et interrompt l’exécution en cas de contenu suspect. « Nous utilisons à la fois des pipelines de détection automatisée et d’examen humain pour identifier les schémas d’accès suspects qui peuvent être signalés et rapidement ajoutés au système de surveillance (en quelques heures) », complète OpenAI.

Comme Anthropic, la société dirigée par Sam Altman prévoit de donner accès à Operator par API.

Pour approfondir sur IA appliquée, GenAI, IA infusée