Zffoto - stock.adobe.com
LLM : Google cherche la clé qui ouvre la porte de l’entraînement en continu
Chez Google Research, une petite équipe de quatre personnes jettent les bases théoriques et pratiques de ce que pourrait être l’héritière de la fameuse architecture Transformer. Elle concentre ses travaux sur les très longues fenêtres de contexte (plus de 2 millions de tokens) et l’apprentissage véritablement en continu.
Depuis près d’un an, une équipe de recherche de Google développe une nouvelle architecture de réseau de neurones. Dénommée Titans, elle vise à remplacer avantageusement l’architecture Transformer.
Né dans les laboratoires de Google entre 2016 et 2017, Transformer est la fondation de la plupart des modèles de langage actuellement disponibles. Sa grande force réside dans son mécanisme d’attention. Celui-ci permet au LLM à l’entraînement et à l’inférence d’accéder à des contenus vus préalablement et d’en comprendre les tenants et aboutissants. C’est la base de la fenêtre de contexte des grands modèles de langage.
Malheureusement, l’implémentation par défaut des Transformer dépend d’un phénomène quadratique : plus la séquence –, le texte, le fichier audio, le document, etc. – est grande en entrée, plus la puissance de calcul nécessaire pour la traiter est exponentielle. D’autant que cette fenêtre de contexte est « finie », à la fois déterminée par la capacité du modèle (et son entraînement) et la puissance de calcul disponible pour son exécution.
De ce fait, les deux cas d’usage phares de l’IA générative – les assistants IA de recherche profonde et les agents IA semi-autonomes – touchent aux limites de cette architecture.
Comme le rappelle Google, plusieurs variantes d’architectures ont vu le jour. Outre le recours à des réseaux de neurones récurrents à porte (comme RecurrentGemma, inspiré par les LSTM), l’une des solutions les plus populaires n’est autre que Mamba 2. En combinant un Transformer et un modèle à espace-état, il est possible de réduire la puissance de calcul consacrée à l’attention en compressant les séquences dans des vecteurs de taille fixe.
« Contrairement aux modèles Transformer, les modèles Mamba offrent l’avantage d’une inférence en temps linéaire et la possibilité théorique de modéliser des séquences de longueur infinie », résumaient les chercheurs e Mistral AI au moment de présenter Codestral Mamba.
Or, selon les chercheurs du géant du cloud, « cette compression à taille fixe ne permet pas de capturer de manière adéquate les informations riches contenues dans les très grandes séquences ».
Titans : trois couches de mémoire et deux niveaux de « surprise »
Eux cherchent à surpasser cette limite en introduisant un mécanisme pour mettre à jour « la mémoire interne du modèle » pendant son exécution. Un dispositif de formation en continu pouvant être utilisé pendant l’entraînement et l’inférence. Les LLM pourraient ainsi être mis à jour en continu, au fur et mesure que de nouvelles informations font leur apparition sur le Web.
Il s’agit de s’inspirer de la séparation de la mémoire à court terme et à long terme dans le cerveau humain. L’architecture de Google est basée sur un perceptron multicouche (Multi-layer Perceptron ou MLP). Une troisième mémoire centrale doit « concaténer » ou, suivant l’implémentation, « compresser » la mémoire contextuelle et la mémoire persistante en la combinant avec une séquence de mots en entrée (un prompt). Les chercheurs ont également fait des tests où seule la mémoire persistante est ajoutée à la fenêtre de contexte. Ces trois variantes ont été testées.
Surtout, les chercheurs introduisent une révision du mécanisme d’attention qui décide « quelles informations seront conservées dans la mémoire persistante ».
Celle-ci s’appuie sur la manière dont les humains retiennent des informations. « Quand un événement fait exception, il est plus facile à retenir », écrivent les chercheurs. Ils traduisent ce phénomène dans un système dit de surprise. Ainsi, dans un texte, la présence des mots « animal » et « chat » dans la même phrase est peu surprenante. Mais dans le cas où un utilisateur d’un chatbot de type Gemini demande d’abord de résumer un rapport financier complexe, puis de générer une image de peau de banane, le score de surprise sera très haut.
Si dans le premier cas, il paraît peu intéressant de réapprendre l’information, dans le deuxième, il faut statuer s’il s’agit d’une anomalie ou s’il faut retenir l’information, voire les deux. La peau de banane pourrait traduire le sentiment de l’analyste, qui considère que son entreprise a glissé sur une difficulté. Ou alors, il a tout simplement voulu tester les capacités d’un modèle de vision-langage.
Comme cette métrique est déterminée par un gradient, il est fort possible que les « petites » surprises puissent être oubliées après plusieurs « grandes » surprises. D’où l’introduction de surprise « passée » et « momentanée ». La première mesure la surprise d’un passé très récent et la seconde la surprise provoquée par des données entrantes.
À cela s’ajoute un mécanisme adaptatif d’oubli. L’architecture ne crée pas de fenêtre de contexte infinie. La consommation de mémoire et sa saturation par de grands documents demeurent un défi. Pour y pallier, il s’agit ici de se « débarrasser des informations qui ne sont plus nécessaires ».
Le tout a donc été mis en pratique dans l’entraînement de trois séries de quatre modèles dotés de 170, 340, 400 et 760 millions de paramètres. Les trois premiers ont été entraînés avec un jeu de donnée de 15 milliards de tokens, tandis que le plus grand a vu 30 milliards de tokens. Les chercheurs assurent que certains de ces modèles comprendraient mieux les longues séquences que leur concurrent hybride (Mamba, Samba, etc.). Et d’affirmer que cette architecture peut prendre en charge des fenêtres de contexte de plus de 2 millions de tokens. Néanmoins, cette dernière hypothèse n’a pas été testée, tandis qu’aucune limitation n’a été présentée dans l’article de recherche publié à la fin du mois de décembre.
MIRAS : jeter les bases théoriques de l’apprentissage en continu
Se rendant bien compte que la majorité des acteurs en présence (ceux derrière Mamba, RetNet, RWKV, ou encore DeltaNet) tentent de résoudre le même problème, les chercheurs de Google ont conceptualisé cette année cette évolution en cours. Le 4 décembre 2025, Google a présenté MIRAS. C'est un cadre théorique pour définir le fonctionnement de ces architectures de LLM dotées de très longues fenêtres de contexte, et capables de combiner des informations récentes et plus anciennes.
Google Research identifie quatre composants principaux : l’architecture chargée de stocker la « mémoire du modèle » (fonction linaire, perceptron multicouche, vecteurs, etc.) ; le biais attentionnel, c’est-à-dire la manière dont les informations sont contextualisées et priorisées ; la porte de rétention ou le dispositif pour retenir les états passés de la mémoire ; et l’algorithme chargé d’optimiser et de mettre à jour en continu le savoir du modèle (descente de gradient, etc.).
« Pour chaque token, le module de mémoire optimise en interne son biais attentionnel tout en utilisant sa porte de rétention pour s’assurer qu’il ne s’écarte pas de son état antérieur », précisent les scientifiques.
En conservant un réseau de neurones perceptron multicouche, les chercheurs ont entraîné des modèles en faisant varier le biais attentionnel, la porte de rétention et l’algorithme de mémorisation. Trois types de modèles ont été entraînés sans recours au mécanisme d’attention : Yaad, Moneta et Memora. Yaad utilise un biais d’attention reposant sur la fonction de perte de Huber moins sensible aux valeurs aberrantes et erreurs ponctuelles. Moneta dépend de pénalités mathématiques strictes (normes). « Il étudie si l’utilisation de ces règles plus strictes pour ce que le modèle prend en compte et ce qu’il oublie peut conduire à un système de mémoire à long terme plus puissant et plus stable dans l’ensemble », dixit les chercheurs.
Enfin, Memora combine un MLP, une régression simple L2 en tant que biais d’attention, la divergence de Kullback-Leibler comme porte de rétention et une descente de gradient pour l’optimisation de la mémoire. Il s’agit d’atteindre un plus haut niveau de stabilité. « Cette contrainte permet de s’assurer chaque fois que l’état de la mémoire est mis à jour, les changements sont contrôlés et équilibrés. Cela garantit un processus propre et stable pour l’intégration de nouvelles informations », résument-ils.
Ici, des modèles de 120, 340, 760 millions et de 1,3 milliard de paramètres ont été entraînés à partir de 15, 30 ou 100 milliards de tokens. Yaad et Memora affichent les meilleurs résultats, toujours supérieurs aux architectures Transformer, Mamba et Samba pour la mémorisation et la recherche d’informations.
Un paradigme à industrialiser
La petite équipe (trois employés et un doctorant) a donc pu prouver l’intérêt de ses travaux. Reste à savoir si les laboratoires principaux de Google, ceux responsables des entraînements de Gemini et de Gemma adopteront ce paradigme d’architecture. Le géant du cloud n’y a pas encore mis des moyens colossaux, comparativement à ceux investis dans Gemini 3 Pro ou Flash, qui viennent d’être lancé. D’autant qu’ils sont déjà dotés d’une fenêtre de contexte d’un million de tokens.
Depuis sa publication le 31 décembre 2024, l’article consacré à Titans a été cité 130 fois par des pairs, selon xArchiv, et celui dédié à MIRAS a été référencé 20 fois depuis sa publication initiale en avril 2025.
Il faut ajouter à cela un article pour cette même équipe intitulé « L’apprentissage imbriqué : L’illusion des architectures d’apprentissage profond ». Celui-ci conceptualise la création de systèmes d’entraînement qui relient plusieurs problèmes d’optimisation en vue d’un apprentissage en continu. Il a été cité 4 fois, malgré sa présentation lors de la convention scientifique NeurIPS 2025.
L'article consacré à Mamba, publié le 31 mai de l’année dernière, a été cité 1185 fois. L’approche des modèles espaces-état, bien qu’imparfaite, a fait ses preuves à l’échelle. Bien évidemment, il n’est pas encore question d’apprentissage en continu.
Titans et MIRAS « ouvrent la voie à une nouvelle génération de modèles de séquences qui combinent l’efficacité des RNN avec la puissance d’expression nécessaire à l’ère de l’IA à long contexte », affirment les chercheurs de Google.
Pour l’instant, le secteur adopte des couches de mémoire modulaires, externe au LLM. Cette approche n’implique pas encore un entraînement en continu. Par exemple, AWS et son framework AgentCore ont pris cette direction.
