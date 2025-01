Hier, OpenAI a présenté son concurrent de Computer Use d’Anthropic. Pour l’instant, l’agent Operator se cantonne à la navigation Web. La startup espère recueillir suffisamment de retours pour améliorer ce système largement perfectible.

Comme les éditeurs, les fournisseurs de LLM se font la course à coup de fonctionnalités. S’il a généralement un train d’avance sur ses adversaires, OpenAI est cette fois-ci le suiveur.

« On peut demander à l’opérateur de s’occuper d’une grande variété de tâches répétitives liées au navigateur, telles que remplir des formulaires, commander des courses et même créer des mèmes », vante OpenAI. Oui, la startup ne veut pas choisir entre le grand public et les professionnels. Les premiers cas d’usage sont pour autant portés vers la première population.

La startup a annoncé le 23 janvier la préversion « scientifique » (research preview en VO) d’Operator. Il s’agit d’un agent capable d’exécuter des tâches sur le Web à la place de l’utilisateur. Cet opérateur est pour l’instant réservé aux abonnés Pro aux États-Unis. Les clients des forfaits Plus, Team et Enterprise pourront y accéder « à l’avenir », tout comme elle sera intégrée dans ChatGPT .

Le modèle qui en résulte, Computer-Using Agent (ou CUA), a également été entraîné à l’aide de captures d’écran d’interfaces graphiques comprenant des menus, des boutons, des champs de texte. C’est la combinaison des images et des étapes d’interaction décrites à l’aide du Chain of Though qui permet à CUA de prendre plusieurs actions les unes à la suite des autres.

Pour ce faire, OpenAI a appliqué des techniques d’apprentissage par renforcement sur des jeux de données constitués à l’aide de la méthode de « cheminement de pensée » (Chain of Though). Il s’agit de confier des capacités de « raisonnement » à GPT-4o vision pour accomplir des tâches sur le Web.

La fonction n’est pas sans rappeler Computer Use d’Anthropic. Et c’est normal : OpenAI s’appuie sur le même principe à savoir opérer un modèle de langage vision – une sous-catégorie de l’IA multimodale . Elle lui confie la capacité d’interagir avec des applications « sans recourir à des API », en lui permettant d’appeler des fonctions depuis une machine virtuelle.

Dans sa présentation des résultats de Computer Use, Anthropic faisait preuve de prudence et d’humour.

Confronté au benchmark OSWorld, CUA bat le précédent record de Claude 3.5 d’Anthropic avec un taux d’accomplissement de 38,1 %, contre 22 %. Face au test WebArena, CUA obtient un score de 58,1 %, tandis que Claude d’Anthropic affiche un taux de 36,2 %, selon le relevé d’OpenAI. Il y a toutefois une différence majeure entre Operator et Computer Use : le système d’Anthropic doit pouvoir manipuler l’ensemble des applications disponibles depuis la VM, pas seulement le navigateur Web.

Des garde-fous à tous les étages

Si OpenAI adopte un ton plus sérieux, la startup ne manque pas de mentionner les faiblesses de CUA et d’Operator. « Comme pour toute technologie à un stade précoce, nous ne nous attendons pas à ce que CUA fonctionne de manière fiable dans tous les scénarios ».

Operator aurait ainsi du mal à gérer la création de diapositives ou la complétion de systèmes de calendriers complexes ou des interfaces hautement personnalisées, illustre le fournisseur.

« Cependant, elle s’est déjà avérée utile dans une variété de cas, et nous visons à étendre cette fiabilité à un plus grand nombre de tâches », assurent les ingénieurs de la startup. « En lançant CUA dans Operator, nous espérons recueillir des informations précieuses de la part de nos utilisateurs, qui nous aideront à affiner ses capacités et à étendre ses applications ».

Il est possible de désactiver l’exploitation des sessions avec Operator pour l’entraînement de CUA, précisent-ils. Les usagers pourraient également supprimer toutes les données des précédentes interactions.

« Nous utilisons à la fois des pipelines de détection automatisée et d’examen humain pour identifier les schémas d’accès suspects qui peuvent être signalés et rapidement ajoutés au système de surveillance. » OpenAI

En attendant, OpenAI a pris plusieurs mesures pour éviter les débordements. CUA a été entraîné pour refuser les demandes toxiques ou illicites, la startup a bloqué l’accès de manière « préemptive » à des sites de pari en ligne, pornographiques ou de ventes d’armes. La société met en place une modération automatisée et hors ligne afin de faire respecter sa politique d’utilisation.

Quant aux erreurs du système, OpenAI entend les limiter en demandant la confirmation des usagers pour finaliser la tâche, interdit à son agent d’effectuer des transactions bancaires ou de valider l’application à une offre d’emploi. Il impose que l’utilisateur observe le comportement d’Operator quand il est utilisé sur des sites Web « sensibles », comme des boîtes mail.

Dernier point, le fournisseur de LLM a conçu un pipeline pour éviter les injections de prompts sur les sites Web, un autre modèle utilisé comme un LLM as a Judge surveille et interrompt l’exécution en cas de contenu suspect. « Nous utilisons à la fois des pipelines de détection automatisée et d’examen humain pour identifier les schémas d’accès suspects qui peuvent être signalés et rapidement ajoutés au système de surveillance (en quelques heures) », complète OpenAI.

Comme Anthropic, la société dirigée par Sam Altman prévoit de donner accès à Operator par API.