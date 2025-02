Anthropic a annoncé hier la disponibilité de Claude 3.7 Sonnet à travers les forfaits Free, Pro, Team et Enterprise de Claude.ai. Le modèle est également disponible via API sur la plateforme Anthropic, Amazon Bedrock et Google Vertex AI.

Sans véritable surprise, cette version améliorée de Claude 3.5 Sonnet « raisonne ». Mais l’éditeur entend se différencier. Claude 3.7 serait le premier modèle « hybride », capable de répondre à des questions ainsi que de développer et d’afficher un raisonnement.

Celui-ci pourrait réaliser des analyses complexes sur des données financières, ou légales, résoudre des problèmes mathématiques, d’ingénierie et de sciences, proposer des optimisations en respectant des contraintes, générer des données synthétiques détaillées, suivre des instructions complexes et structurées.

Claude 3.7 Sonnet a été entraîné sur un mix de données publiques et propriétaires dont l’extraction a été arrêtée au mois de novembre 2024. La phase de raisonnement s’appuie plus particulièrement sur l’introduction de tokens spéciaux lors d’une phase d’apprentissage par renforcement. Anthropic aurait réussi à apprendre au LLM à ne déclencher sa phase de raisonnement qu’à la mention de ces tokens spéciaux. Cela semble expliquer d’ailleurs pourquoi la startup recommande de minimiser l’usage de prompts dites « Chain of Thought » ou des balises du type <think> </think> qui sont probablement redondantes avec l’activation de ce mode « raisonnement ».

Une alternative à o1 d’OpenAI Comme OpenAI, Anthropic considère que les modèles de raisonnement ont besoin de temps et donc de puissance de calcul pour développer leurs réponses. Ainsi, le mode de « pensée étendue » est accessible à travers les offres payantes de la startup. Dans un même temps, elle propose, via API, un moyen de restreindre le temps de raisonnement. « Vous pouvez demander à Claude de réfléchir pour un maximum de N tokens, avec une valeur allant jusqu’à sa limite de sortie de 128 000 tokens », précise-t-elle. « Cela vous permet d’obtenir un compromis entre la vitesse (et le coût) et la qualité de la réponse ». Au total, Claude 3.7 Sonnet dispose d’une fenêtre de contexte de 200 000 tokens, mais les « thinking tokens » réclament une longueur minimum de 1 024 tokens. Précisons que l’entreprise a décidé de ne pas changer la tarification de son modèle. Comme la version 3.5, l’usage de Claude 3.7 Sonnet coûte 3 dollars pour 1 million de tokens en entrée, et 15 dollars pour un million de tokens en sortie. S’il est bien plus cher que celui d’o3-mini, ce tarif est compétitif par rapport à o1. En effet, OpenAI facture l’appel à son modèle 15 dollars par million de tokens en entrée (7,50 dollars si mis en cache) et 60 dollars pour un million de tokens en sortie. C’est d’autant plus important qu’Anthropic prétend que son modèle hybride surpasse o1, o3-mini et DeepSeek-R1. Il serait plus ou moins à égalité avec Grok-3 Beta dans les différents benchmarks. Ces LLM « saturent » pratiquement les parangonnages. Cela laisse à penser qu’il faut revoir les tests ou que les jeux de données d’entraînement sont contaminés par ces fameux tests, intentionnellement ou non. Peu importe le fournisseur, les résultats présentés sont difficilement crédibles tant qu’une entité indépendante ne les a pas vérifiés.