Supatman - stock.adobe.com

Fable 5 : Anthropic place Mythos sous contrôle

Anthropic met à jour Mythos et lance Fable 5, une variante sous contrôle du LLM pour le commun des mortels. Outre les gains de performance difficilement perceptibles, le fournisseur segmente davantage ses produits pour mieux cibler des secteurs spécialisés. Une approche tentée en 2023 par Google.

Attendu de pied ferme, Anthropic a décliné Mythos dans une version accessible aux communs des mortels. Nommé Claude Fable 5, le LLM est accessible depuis AWS Bedrock, Vertex AI et Microsoft Foundry, entre autres. Le fournisseur lance aussi Mythos 5 en disponibilité limitée dans le cadre du projet Glasswing. En clair, il n’est accessible qu’à un petit nombre d’entreprises et au gouvernement américain pour des tâches liés à la cybersécurité.

Deux modèles deux fois plus chers

Claude Fable 5 est doté d’une fenêtre de contexte d’un million de tokens et peut produire au maximum 128 000 tokens en une seule fois. Sa date limite de connaissance est toujours fixée au mois de janvier 2026. Ce qui le distingue en premier lieu de Claude Opus 4.8, c’est son prix. Tout comme Mythos 5, il est facturé le double : 10 dollars pour un million de tokens en entrée, 50 dollars en sortie. Claude Mythos Preview est facturé 25 dollars pour 1 million de tokens en entrée, et 125 dollars pour le même volume en sortie.

Fable 5 est inclut dans les abonnements Pro, Max et Team de Claude.ai. Toutefois, il sera retiré le 23 juin de ces forfaits. Les usagers devront payer le volume de crédits consommés, comme les adeptes de l’API. Selon le cabinet Artificial Analysis, si Fable 5 se hisse à la tête de son classement Intelligent Index, c’est aussi le modèle qui a coûté le plus cher pour passer le test Human’s Last Exam (HLE). Ce seul banc d’essai a coûté 2 200 dollars. À titre de comparaison, exécuter Claude Opus 4.8 (effort max, raisonnement adaptatif) sur HLE revient à 1720 dollars et à 4685 dollars sur l’ensemble des bancs d’essai de l’Intelligence Index. Fable 5 serait le modèle le plus cher passé entre les mains des analystes.

Rétention de données et filtres avancés : Anthropic vante son filet de sécurité

Par ailleurs, les données en entrée sont obligatoirement retenues pendant 30 jours. Tous les modèles de classe Fable ou Mythos seront logés à la même enseigne. Anthropic ne dit pas se servir de ces données pour les entraînements, mais pour se « prémunir contre des attaques complexes et inédites ». En premier lieu, le fournisseur veut éviter les techniques de contournement de ses garde-fous et les attaques « s’étendant sur plusieurs requêtes ».

Fable 5 est protégé par des classificateurs responsables de détecter des tentatives de jailbreaks, d’injection de prompts ou encore de distillation de connaissances. Anthropic utilisait déjà ces systèmes d’IA entraînés à partir de données synthétiques générées par des LLM. Ces algorithmes – probablement des LLM-as-a-judge spécialisés – seraient plus performants.

« Nous avons déjà mis en évidence des tentatives à grande échelle visant à extraire (“distiller”) les capacités de Claude afin d’entraîner des modèles concurrents dans des pays autoritaires », justifie Anthropic. En clair, le fournisseur veut empêcher les acteurs chinois d’entraîner des modèles à partir des résultats de Claude. Il répond aux impératifs du gouvernement américain et à ses enjeux de compétitivité.

Fable 5 passe devant Opus 4.8, Gemini 3.1 Pro et GPT-5.5… de peu

Quant aux résultats affichés par Anthropic, il faut les prendre avec des pincettes. Le fournisseur de LLM a jugé bon d’afficher les résultats combinés de Fable 5 et Mythos 5. Pour chaque benchmark, il a choisi d’afficher le meilleur score des deux. Et d’assurer que ces deux modèles sont dans la plupart des cas au même niveau. Une technique abusive. Surtout, Fable 5 est doté d’un mécanisme de « fallbacks ». Par exemple, les questions légitimes liées à la chimie et à la biologie seront traitées par Opus 4.8. Selon le fournisseur, seulement 5 % des requêtes sont routées vers le modèle précédent. Artificial Analysis remarque sur son banc d’essai que 8 % des prompts ont été reroutés.

Selon l’Intelligence Index, Claude Fable 5 affiche un score de 64,9 sur 100, contre 61,4 sur 100 pour Opus 4.8, 5 points devant GPT-5.5. Fable 5 se démarque réellement sur le benchmark HLE avec un score de 53 %, contre 45,7 % pour Claude Opus 4.8 Max et 44,3 % pour GPT-5.5 xhigh. Sur les autres tests, Claude Fable 5 grappille un à trois points de pourcentage. Fable 5 est donc le meilleur sur cinq des dix tests de l’index, mais de peu. Et il est lent : 60 tokens par seconde de moyenne, contre 63 tokens par seconde pour Opus 4.8. Les partenaires d’Anthropic affirment pour autant que le LLM termine les tâches de développement plus rapidement.

Mythos 5, le Sec-PalM d’Anthropic

Artificial Analysis ne teste malheureusement pas les capacités cyber des LLM. Difficile donc de trouver un contrepoint. Toutefois, du fait des classificateurs et de la redirection vers Opus 4.8, Fable 5 serait aussi efficace que son prédécesseur sur les tâches liées à la cybersécurité. Mythos 5 n’est pas freiné par ces filtres. Le fournisseur joue ainsi sur la réputation du LLM, aussi efficace que dangereux. Mythos 5 ferait légèrement mieux que Mythos Preview en la matière. Les experts cyber ont déjà exposé les avantages et les limites d’un tel LLM.

Tout comme, Mythos afficherait des résultats pertinents sur les sujets biochimiques. Pour l’instant, il n’y a pas d’équivalent au projet Glasswing ouvert aux acteurs des secteurs biopharmaceutiques et de la biochimie. Ce sera bientôt le cas. En clair, Anthropic reprend à son compte une stratégie lancée par Google avec Sec-PalM et Med-PalM en 2022. Il s’agit de lancer des modèles spécialisés pour des acteurs triés sur le volet.

Quant au développement logiciel, les partenaires d’Anthropic ont pu exécuter Fable 5 pendant de nombreuses heures, parfois près de 40 heures sans interruption. Ceux-là sont forcément dithyrambiques, lancement oblige. Là encore, Fable 5 doit faire ses preuves en conditions réelles.