Anthropic veut rapprocher l’IA générative de la RPA

Le fournisseur a présenté la fonctionnalité « computer use », un moyen de confier aux modèles Claude le moyen de manipuler l’interface d’un ordinateur… Comme le ferait un bot RPA.

Anthropic a annoncé la mise à jour de Claude 3.5 Sonnet et Haiku. Claude 3.5 Sonnet est disponible et Haiku sera accessible « plus tard ce mois-ci » depuis son API, Amazon Bedrock et Google Cloud Vertex AI.

Cet ajustement permet à Anthropic de proposer un modèle légèrement supérieur à GPT-4o dans différents benchmarks génériques. C’est en tout cas ce que prétend le fournisseur dans son communiqué.

« GitLab, qui a testé le modèle pour les tâches DevSecOps, a constaté qu’il permettait un meilleur raisonnement (jusqu’à 10 % selon les cas d’utilisation) sans latence supplémentaire, ce qui en fait un choix idéal pour les processus de développement de logiciels en plusieurs étapes », affirme Anthropic.

L’on voit poindre une certaine litanie chez ces fournisseurs tour à tour meilleurs que leurs pairs.

Des modèles mieux outillés

En revanche, Anthropic a un petit « plus » pour se différencier : « computer use ».

Cette fonction accessible en bêta permet aux développeurs de donner à Claude l’accès à l’interface d’un système d’exploitation s’exécutant dans une machine virtuelle ou un conteneur pour manipuler le curseur de la souris, naviguer dans les menus, et taper du texte.

L’idée est de confier au modèle des prompts lui permettant d’effectuer des tâches comme remplir un formulaire, extraire des données du Web, vérifier une feuille de calcul, etc.

« Il reste à voir s’il y a un avantage spécifique à la façon dont Anthropic exploite cette capacité, et comment ils peuvent l’exploiter spécifiquement avec leur famille de modèles de langage ».
Rowan CurranAnalyste, Forrester Research

Pour les utilisateurs de Selenium, de Blue Prism, UiPath, Automation Anywhere ou encore Power Automation, voilà quelque chose de familier : du Web scraping et de la RPA (!).

« Il y a beaucoup d’éditeurs de logiciels qui offrent exactement le type de capacité qu’ils lancent, c’est-à-dire la possibilité d’avoir une interaction entre une machine et une interface humaine », rappelle Rowan Curran, analyste chez Forrester Research auprès de Search AI Enterprise, une publication sœur du MagIT. « Il reste à voir s’il y a un avantage spécifique à la façon dont Anthropic exploite cette capacité, et comment ils peuvent l’exploiter spécifiquement avec leur famille de modèles de langage ».

Il est évident que les entreprises ne remplaceront pas leurs briques RPA, BPA et autres outils de scraping du jour au lendemain.

D’autant que les performances de « computer use » sont encore très discutables.  

« Sur OSWorld, qui évalue la capacité des modèles d’IA à utiliser les ordinateurs comme le font les gens, Claude 3,5 Sonnet a obtenu un score de 14,9 % dans la catégorie des captures d’écran uniquement, ce qui est nettement mieux que le score de 7,8 % du meilleur système d’IA suivant », écrit Anthropic. « Lorsqu’il a disposé d’un plus grand nombre d’étapes pour accomplir la tâche, Claude a obtenu un score de 22,0 % ». C’est très loin des résultats des humains qui obtiennent en moyenne un score de 70 à 75 %, prévient la startup.

Une fonctionnalité loin d’être prête pour la production

En clair, et comme l’a déjà observé ServiceNow dans son effort de conception d’un agent capable d’explorer le Web, les capacités des LLM dans ce domaine sont limitées. Anthropic le reconnaît volontiers.

« Alors même que nous enregistrions des démonstrations d’utilisation d’ordinateurs pour le lancement, nous avons rencontré quelques erreurs amusantes », notent les chercheurs. « Dans l’une d’elles, Claude a accidentellement cliqué pour arrêter un enregistrement d’écran qui durait depuis longtemps, ce qui a entraîné la perte de toutes les séquences. Dans une autre, Claude a soudainement interrompu notre démonstration de programmation et s’est mis à regarder des photos du parc national de Yellowstone ».

Pour autant, l’éditeur est convaincu qu’il peut améliorer cette fonctionnalité, en sus de trouver des moyens d’éviter les risques signalés en rouge dans sa documentation.

Anthropic recommande aux développeurs d’utiliser une machine virtuelle ou un conteneur dédié avec des privilèges minimaux (proche d’une sandbox donc) pour tester la fonctionnalité. Il indique également qu’il ne fait pas bon d’exposer le modèle à des données sensibles, dont des secrets et éléments d’authentification. Aussi, le modèle ne doit pas pouvoir explorer le Web et idéalement s’appuyer sur des filtres pour éviter l’exposition à des contenus malicieux. Enfin, la supervision humaine, notamment pour valider certaines opérations, est de mise.

Aux enjeux de performance des bots RPA, s’ajoute donc la mitigation de risques inhérents à l’IA générative.

Pour autant, l’éditeur assure qu’Asana, Canva, Cognition, DoorDash, Replit et The Browser Company ont déjà commencé les tests de « computer use » impliquant la complétion de centaines de tâches.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM

Close