Looker_Studio - stock.adobe.com

Claude 4.5 : plus qu’un LLM, Anthropic présente un arsenal d’outils dédiés à l’IA agentique

Anthropic enrobe Claude 4.5 dans un système centré sur la programmation. L’ensemble des fonctions et outils visent à simplifier l’intégration du LLM dans la chaîne de livraison logicielle et le développement d’agents IA.

Cette semaine, Anthropic a dévoilé la disponibilité de Claude 4.5.

Celui-ci est présenté comme un remplaçant de ses anciens modèles pour tous les cas d’usage. Il est proposé au même prix que son prédécesseur : 3 dollars pour 1 million de tokens en entrée, 15 dollars en sortie. Il reste donc plus cher que la plupart de ses concurrents.

Ce LLM multimodal (texte et image en entrée, texte en sortie) dispose d’une fenêtre de contexte de 200 000 tokens (et 1 million de tokens en beta), et peut générer jusqu’à 64 000 tokens. La date limite de connaissances des données d’entraînement est juillet 2025. Toutefois, Anthropic précise que son modèle répond de manière « fiable » aux informations disponibles sur le Web au mois de janvier.

Cette « mise à jour » est, à nouveau, centrée sur le développement. Pas peu fier, Anthropic revendique « le meilleur modèle de programmation au monde ». Normal. S’il y a bien un cas d’usage de l’IA générative généralisée au sein des entreprises, c’est bien celui-ci.

D’ailleurs, Anthropic met moins l’accent sur les performances de son LLM (les parangonnages sont évidemment en faveur Claude 4.5, devant Claude 4 et GPT-5) que sur les fonctionnalités de ses API et ses outils. Il faut dire que les LLM atteignent un plateau.

Claude 4.5 est un modèle de raisonnement hybride. À ce titre, la startup a étendu le temps pendant lequel il peut « réfléchir ». Il exécute des tâches de manière autonome pendant des « des heures ». Un partenaire du fournisseur l’a fait « tourner » plus de 30 heures. Dans ce cadre, au lieu d’effectuer une action durant des heures, l’API de Claude 4.5 en sauvegarde des états, puis repart de ces points pour la poursuivre.

Une meilleure gestion du contexte et des outils

Le LLM est également « conscient » de son contexte. Un argument lui informe le nombre de tokens restant dans le cadre d’une conversation. Par défaut, ce budget est fixé à 200 000 tokens, mais il est possible de l’étendre à 500 000 tokens avec le forfait Enterprise (et à 1 million de tokens en beta). C’est l’appel à un outil qui déclenche la notification du budget. Avec cette information, le modèle peut adapter son fonctionnement.

« Claude est entraîné de manière native à utiliser ce contexte précisément pour persévérer dans la tâche jusqu’à la fin, plutôt que d’avoir à deviner combien de tokens il reste », indique la documentation de l’éditeur. Si la fenêtre de contexte est pleine, l’API du modèle renvoie un message d’erreur plus clair.

Globalement, la gestion du contexte a été améliorée. Anthropic spécifie d’ailleurs la manière dont cette fenêtre fonctionne. Après le premier prompt, le modèle y accumule les entrées et les sorties et les préserve au fil des appels. En revanche, avec le mode de raisonnement étendu, si cette phase prend de la place, les tokens correspondant ne sont pas utilisés au prochain tour. Les outils occupent également cette « mémoire de travail », explique la startup. Là aussi, seul le résultat du traitement lié à l’outil est conservé. Une fonction d’édition du contexte permet de supprimer automatiquement les appels aux outils les plus anciens et les résultats qu’ils ont produits quand la limite de la fenêtre de contexte est proche.

Les états des conversations et des sessions peuvent être persistés dans des fichiers externes. C’est le rôle de l’outil mémoire, accessible en bêta. Il permet de décider où et comment les données sont stockées sur une infrastructure choisie par le client. A priori, il s’agit de placer des fichiers JSON en mémoire vive ou dans des espaces de stockage flash.

Les outils peuvent être appelés en parallèle, tandis que Claude 4.5 a été entraîné pour mieux prendre en charge la coordination de ces services externes. Évidemment, cela devrait rendre possible l’accomplissement de séries de tâches. Une capacité attendue d’un modèle propulsant des agents IA.

Outre son API et son modèle, Anthropic a mis à jour ses applications et ses intégrations. Claude Code peut dorénavant sauvegarder des états afin de ne pas perdre le contenu fonctionnel généré lors d’une session précédente. Une extension « native » à VS Code est également disponible, tandis que l’application Claude.ai créé des fichiers : feuilles de calcul, slides, documents.

En « bonus », Anthropic a présenté « Imagine with Claude ». Cette fonctionnalité vise à créer des « logiciels à la volée ». Le modèle génère en temps réel des applications front-end à partir d’un concept exprimé par l’usager. Un moyen de démontrer les capacités du modèle, mais aussi de créer des prototypes d’applications.

Enfin, Anthropic propose le SDK Claude Agent, le framework utilisé pour bâtir Claude Code. Il est vendu comme un moyen de concevoir et de déployer des agents IA. Il s’appuie sur une boucle spécifique. Celle-ci consiste à regrouper du contexte, à prendre des actions et à vérifier les résultats obtenus, puis à répéter l’opération.

Le rassemblement d’informations passe par un système de fichiers qui permet au modèle de décider quand les charger pour effectuer une tâche spécifique. Il est aussi possible d’utiliser un mécanisme de recherche sémantique, plus rapide, mais moins précis et plus difficile à maîtriser.

Ces tâches de recherche d’informations peuvent être confiées à des « sous-agents ». Ici, ce sont d’autres LLM qui géreront ce processus en s’appuyant sur leur propre fenêtre de contexte.

En outre, le SDK offre sa propre fonction de gestion du contexte : quand la limite approche, les messages précédents sont résumés, « compressés ».

Les outils principaux sont les scripts, ainsi que les appels aux serveurs MCP. Surtout, le LLM serait capable de manier une dizaine d’outils simultanément.

Le « pourrissement du contexte », l’ennemi numéro 1 des agents IA

La plupart de ces techniques visent à lutter contre le « pourrissement du contexte ». Au fur et à mesure que les tokens s’accumulent dans la fenêtre de contexte, un LLM peut perdre l’attention, et donc produire des résultats moins pertinents, voire des hallucinations. Comme un humain qui se déconcentre en quelques minutes.

Anthropic précise que ses moyens ne sont pas miraculeux. La startup recommande de les utiliser dans le cadre d’une ingénierie du contexte, qui passe aussi par une maîtrise du prompting et d’éléments structurés, comme des fichiers XML ou MD. Ces couches supplémentaires ont le désavantage de ralentir la génération d’une réponse, ajoute-t-elle.

Claude 4.5 est disponible depuis Amazon Bedrock, Google Cloud Vertex AI, Databricks, GitHub Copilot, ou à travers Microsoft Copilot Studio.

Reste à voir si le LLM fait ses preuves au-delà des démonstrations. Ses performances sont déjà saluées par des ingénieurs chez Netflix, GitHub, Cursor, Windsurf, Canva, Thomson Reuters ou encore Figma.

Pour approfondir sur IA appliquée, GenAI, IA infusée