besjunior - stock.adobe.com

Claude 3.7 Sonnet : Anthropic mise sur un modèle de raisonnement « hybride »

Avec Claude 3.7 Sonnet, Anthropic veut se différencier en proposant un LLM à la fois capable de répondre à des questions et de produire des « raisonnements ». Le fournisseur entend le proposer plus particulièrement aux développeurs.

Anthropic a annoncé hier la disponibilité de Claude 3.7 Sonnet à travers les forfaits Free, Pro, Team et Enterprise de Claude.ai. Le modèle est également disponible via API sur la plateforme Anthropic, Amazon Bedrock et Google Vertex AI.

Sans véritable surprise, cette version améliorée de Claude 3.5 Sonnet « raisonne ». Mais l’éditeur entend se différencier. Claude 3.7 serait le premier modèle « hybride », capable de répondre à des questions ainsi que de développer et d’afficher un raisonnement.  

Celui-ci pourrait réaliser des analyses complexes sur des données financières, ou légales, résoudre des problèmes mathématiques, d’ingénierie et de sciences, proposer des optimisations en respectant des contraintes, générer des données synthétiques détaillées, suivre des instructions complexes et structurées.

Claude 3.7 Sonnet a été entraîné sur un mix de données publiques et propriétaires dont l’extraction a été arrêtée au mois de novembre 2024. La phase de raisonnement s’appuie plus particulièrement sur l’introduction de tokens spéciaux lors d’une phase d’apprentissage par renforcement. Anthropic aurait réussi à apprendre au LLM à ne déclencher sa phase de raisonnement qu’à la mention de ces tokens spéciaux. Cela semble expliquer d’ailleurs pourquoi la startup recommande de minimiser l’usage de prompts dites « Chain of Thought » ou des balises du type <think> </think> qui sont probablement redondantes avec l’activation de ce mode « raisonnement ».

Une alternative à o1 d’OpenAI

Comme OpenAI, Anthropic considère que les modèles de raisonnement ont besoin de temps et donc de puissance de calcul pour développer leurs réponses. Ainsi, le mode de « pensée étendue » est accessible à travers les offres payantes de la startup. Dans un même temps, elle propose, via API, un moyen de restreindre le temps de raisonnement.

« Vous pouvez demander à Claude de réfléchir pour un maximum de N tokens, avec une valeur allant jusqu’à sa limite de sortie de 128 000 tokens », précise-t-elle. « Cela vous permet d’obtenir un compromis entre la vitesse (et le coût) et la qualité de la réponse ». Au total, Claude 3.7 Sonnet dispose d’une fenêtre de contexte de 200 000 tokens, mais les « thinking tokens » réclament une longueur minimum de 1 024 tokens.

Précisons que l’entreprise a décidé de ne pas changer la tarification de son modèle. Comme la version 3.5, l’usage de Claude 3.7 Sonnet coûte 3 dollars pour 1 million de tokens en entrée, et 15 dollars pour un million de tokens en sortie.

S’il est bien plus cher que celui d’o3-mini, ce tarif est compétitif par rapport à o1. En effet, OpenAI facture l’appel à son modèle 15 dollars par million de tokens en entrée (7,50 dollars si mis en cache) et 60 dollars pour un million de tokens en sortie.

C’est d’autant plus important qu’Anthropic prétend que son modèle hybride surpasse o1, o3-mini et DeepSeek-R1. Il serait plus ou moins à égalité avec Grok-3 Beta dans les différents benchmarks.

Ces LLM « saturent » pratiquement les parangonnages. Cela laisse à penser qu’il faut revoir les tests ou que les jeux de données d’entraînement sont contaminés par ces fameux tests, intentionnellement ou non. Peu importe le fournisseur, les résultats présentés sont difficilement crédibles tant qu’une entité indépendante ne les a pas vérifiés.

Claude Code : un système agentique dédié à la programmation

Néanmoins, Anthropic se concentre sur un cas d’usage spécifique : la génération et la complétion de code.

« Les premiers tests ont démontré la supériorité de Claude en matière de programmation sur tous les fronts », vante Anthropic. « Cursor a noté que Claude est une fois de plus le meilleur de sa catégorie pour les tâches de programmation du monde réel, avec des améliorations significatives dans des domaines allant de la gestion de bases de code complexes à l’utilisation avancée d’outils ».

Dans la foulée, l’éditeur met en avant Claude Code, en préversion de recherche. Cet outil « agentique » doit permettre de faire interagir Claude 3.7 Sonnet avec un dépôt de code afin de l’analyser, de suggérer des améliorations, de créer de nouveaux éléments, créer des tests, etc.

En interne, les ingénieurs d’Anthropic l’utilisent pour tester des fonctionnalités, les débugger ou les refactoriser. En outre, la startup propose une intégration avec GitHub sur l’ensemble des forfaits de Claude.ai. Elle n’est pas la seule à vouloir s’imposer dans ce domaine : Mistral AI et OpenAI ciblent particulièrement les développeurs.

Toutefois, le fait que certaines fonctionnalités de GitHub Copilot, GitLab Duo, ou encore AmazonQ Developer reposent sur Claude 3.5 Sonnet semble lui donner un avantage certain.

« Anthropic a été très bon jusqu’ici dans la maîtrise des tâches de programmation », déclare Arun Chandrasekaran, analyste chez Gartner, auprès de SearchEnterpriseAI, une publication sœur du MagIT. « J’imagine qu’ils veulent aller plus loin dans ce domaine, qui consiste à essayer d’automatiser les flux de travail du cycle de développement des logiciels ».

Reste que GitHub et désormais Google proposent des versions gratuites de leur assistant de programmation. Un élément essentiel pour convaincre les développeurs. Et Anthropic n’est pas le seul à vouloir concevoir des agents de codage.

Pour approfondir sur IA appliquée, GenAI, IA infusée