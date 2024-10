Anthropic a annoncé la mise à jour de Claude 3.5 Sonnet et Haiku. Claude 3.5 Sonnet est disponible et Haiku sera accessible « plus tard ce mois-ci » depuis son API, Amazon Bedrock et Google Cloud Vertex AI.

Cet ajustement permet à Anthropic de proposer un modèle légèrement supérieur à GPT-4o dans différents benchmarks génériques. C’est en tout cas ce que prétend le fournisseur dans son communiqué.

« GitLab, qui a testé le modèle pour les tâches DevSecOps, a constaté qu’il permettait un meilleur raisonnement (jusqu’à 10 % selon les cas d’utilisation) sans latence supplémentaire, ce qui en fait un choix idéal pour les processus de développement de logiciels en plusieurs étapes », affirme Anthropic.

L’on voit poindre une certaine litanie chez ces fournisseurs tour à tour meilleurs que leurs pairs.

Des modèles mieux outillés En revanche, Anthropic a un petit « plus » pour se différencier : « computer use ». Cette fonction accessible en bêta permet aux développeurs de donner à Claude l’accès à l’interface d’un système d’exploitation s’exécutant dans une machine virtuelle ou un conteneur pour manipuler le curseur de la souris, naviguer dans les menus, et taper du texte. L’idée est de confier au modèle des prompts lui permettant d’effectuer des tâches comme remplir un formulaire, extraire des données du Web, vérifier une feuille de calcul, etc. « Il reste à voir s’il y a un avantage spécifique à la façon dont Anthropic exploite cette capacité, et comment ils peuvent l’exploiter spécifiquement avec leur famille de modèles de langage ». Rowan CurranAnalyste, Forrester Research Pour les utilisateurs de Selenium, de Blue Prism, UiPath, Automation Anywhere ou encore Power Automation, voilà quelque chose de familier : du Web scraping et de la RPA (!). « Il y a beaucoup d’éditeurs de logiciels qui offrent exactement le type de capacité qu’ils lancent, c’est-à-dire la possibilité d’avoir une interaction entre une machine et une interface humaine », rappelle Rowan Curran, analyste chez Forrester Research auprès de Search AI Enterprise, une publication sœur du MagIT. « Il reste à voir s’il y a un avantage spécifique à la façon dont Anthropic exploite cette capacité, et comment ils peuvent l’exploiter spécifiquement avec leur famille de modèles de langage ». Il est évident que les entreprises ne remplaceront pas leurs briques RPA, BPA et autres outils de scraping du jour au lendemain. D’autant que les performances de « computer use » sont encore très discutables. « Sur OSWorld, qui évalue la capacité des modèles d’IA à utiliser les ordinateurs comme le font les gens, Claude 3,5 Sonnet a obtenu un score de 14,9 % dans la catégorie des captures d’écran uniquement, ce qui est nettement mieux que le score de 7,8 % du meilleur système d’IA suivant », écrit Anthropic. « Lorsqu’il a disposé d’un plus grand nombre d’étapes pour accomplir la tâche, Claude a obtenu un score de 22,0 % ». C’est très loin des résultats des humains qui obtiennent en moyenne un score de 70 à 75 %, prévient la startup.