
James Steidl - Fotolia
Aleph Alpha veut libérer les LLM de leur tokenizer
Aleph Alpha, l’autre pépite européenne de l’IA avec Mistral AI, a présenté lors du forum économique de Davos, une architecture de LLM sans tokenizer. Elle espère ainsi réduire la quantité de ressources de calcul nécessaire à l’entraînement et à l’inférence des modèles.
Un tokenizer est un modèle-outil de conversion d’une chaîne de caractères en liste de symboles ou de vecteurs interprétables par un modèle de traitement du langage naturel (NLP).
Bien que « fondamental » dans l’émergence des grands modèles de langage actuels, selon Aleph Alpha, il serait aussi le responsable de l’inefficacité du fine-tuning et de l’entraînement supervisé de LLM sur des connaissances sectorielles.
« Une raison clé à cela est que les modèles de langage apprennent à partir des schémas présents dans la version tokenisée des textes sur lesquels ils ont été entraînés », indique Aleph Alpha, dans un communiqué de presse. « Si un nouveau texte diffère considérablement des données d’entraînement d’origine, il ne peut pas être tokenisé de manière efficace ». En clair, pour gagner en qualité, il faudrait réentraîner le modèle et son tokenizer en ingérant également les données sectorielles… séparément.
Les problèmes posés par les tokenizers
Aleph Alpha n’est plus un fournisseur de LLM. La startup allemande se concentre désormais sur l’aide au déploiement de systèmes d’IA générative dans les entreprises. Or les industriels cherchent à obtenir des modèles pouvant répondre à des questions spécifiques à leur domaine. Certains acteurs, comme les États, cherchent à obtenir des modèles performants dans d’autres langues que l’anglais, la lingua franca des tokenizers. La suppression du tokenizer serait, selon les dires de la startup, un moyen de valoriser la souveraineté tout en réduisant l’empreinte carbone de l’entraînement des LLM.
De fait, la tokenization n’est pas une mince affaire. Selon Aleph Alpha, la première approche consistant à diviser les phrases en caractères a été petit à petit abandonnée. Elle s’avérait gourmande en calcul et en mémoire. La méthode qui a fait consensus consiste à diviser les mots en séquences de caractères adjacents, parfois équivalente à des syllabes, parfois non. Si elle permet de compresser les textes tout en gérant des mots inconnus, elle « alourdit » les modèles et s’adapte mal aux nouveaux textes. Ces « sous-mots » sont encodés dans un corpus nommé vocabulaire. Un corpus « statique » qui sert ensuite à entraîner le LLM. Il n’est donc pas possible d’allouer plus de ressources dans la prédiction d’un token par rapport à un autre. Or les premiers tokens d’une phrase sont souvent plus difficiles à calculer.
Hierarchical Architecture Transformer : la solution « Tokenizer Free » d’Aleph Alpha
L’architecture présentée par Aleph Alpha revoit ce processus. Son Hierarchical Architecture Transformer (HAT) combine un traitement au niveau des caractères et des mots. « Nous commençons par diviser le texte en mots à l’aide d’une règle simple, en nous basant sur la définition standard des mots selon Unicode. Les octets de chaque mot sont ensuite traités par un petit module d’encodage, qui les transforme en un embedding (vecteurs) de mots », expliquent les chercheurs. « La séquence obtenue est ensuite traitée par un modèle principal plus grand, appelé “backbone” », poursuivent-ils.
Les sorties (outputs) de ce backbone sont considérées comme « des représentations vectorielles de mots prédictifs abstraits ». Ils sont reconvertis en caractères par un autre petit module de décodage dédié. « Ces modules au niveau de l’octet peuvent rester très petits, avec moins de paramètres que les embeddings au niveau des tokens et les têtes de sortie qu’ils remplacent », assurent les chercheurs.
Ici, le modèle s’appuie sur UTF-8 comme alphabet. Sa taille de vocabulaire tombe à 256 tokens.
« L’encodeur, le backbone et le décodeur utilisent des modèles transformers, et l’ensemble du système peut être entraîné de bout en bout, sans nécessiter de tokenizer fixe et préentraîné ».
Diviser par trois le coût de l’inférence
Pour tester cette théorie, Aleph Alpha a entraîné un modèle de 7 milliards de paramètres avec l’équivalent de 2 300 milliards de tokens en anglais et en finnois. Il a exploité un supercalculateur doté d’accélérateurs AMD MI300. Avec le même budget de calcul, le laboratoire indique qu’il aurait pu entraîner un LLM et son tokenizer avec 1 900 milliards de tokens.
« Notre modèle obtient des résultats d’évaluation comparables à ceux d’un modèle basé sur un tokenizer en préentraînement en anglais […], tout en étant 18 % plus efficace en anglais […] pendant l’inférence », assure le laboratoire de recherche.
Il faut toutefois noter qu’Aleph Alpha compare son modèle avec Apple DCLM-7B, un LLM entraîné sur un corpus de taille équivalente.
Le gros des 2 300 milliards de tokens est en anglais. Le fournisseur a poursuivi le préentrainement sur le finnois avec un jeu de données de 18 milliards de tokens. Là, il a observé une économie de 200 % à l’inférence, soit une division par trois de la consommation de ressources de calcul et de VRAM. Les économies de ressources seraient de l’ordre de 70 % par rapport à un modèle Llama, selon les parangonnages d’Aleph Alpha contre le modèle Viking 7B de Silo AI, un laboratoire acquis par AMD.
Autre avantage de cette architecture « Tokenizer Free », les modèles sont moins sensibles aux « perturbations », c’est-à-dire aux mots incomplets, aux fautes d’orthographe ou de typographies.
En revanche, la méthode de gestion de séparations des espaces blancs choisie par Aleph Alpha est adaptée aux langages alphabétiques, et non logographiques. Cela écarte pour l’instant des langues comme le chinois, le coréen, le japonais, qui peuvent « représenter en un caractère un mot ou un morphème entier ». Et c’est également un problème pour faire apprendre aux modèles des éléments de code et de mathématiques. Pour l’instant, Aleph Alpha a testé une autre méthode de séparation des mots en entrée. Elle est « prometteuse », mais demeure dans les appendices de l’article de recherche.
La chasse au tokenizer est ouverte
Aleph Alpha n’en était pas à son premier coup d’essai. Mais il n’est pas le seul laboratoire à s’être donné cette mission de supprimer le tokenizer. En décembre 2024, Meta a présenté Byte Latent Transformer. Avec le même objectif, les chercheurs proposent une architecture d’apparence similaire (trois modules basés sur des Transformers), mais plus complexe, qui remplace le tokenizer par des représentations dynamiques des caractères en « patchs ». Ces patchs sont des groupes de caractères (d’octets) plus ou moins longs réunis suivant une mesure d’entropie. Leur longueur dépend de la difficulté à prédire le prochain token. Comme BLT ne s’appuie pas sur une technique heuristique – l’usage d’UTF-8 –, l’architecture ne subirait pas la limite présentée par Aleph Alpha.
« Notre étude approfondie sur la mise à l’échelle démontre que les modèles BLT peuvent égaler les performances des modèles basés sur la tokenisation tels que Llama 3 à des échelles allant jusqu’à 8 milliards de paramètres et 4 000 milliards d’octets », affirment les chercheurs réunis par Meta. Si les benchmarks ne sont pas aussi bons que ses LLM existants, le laboratoire FAIR mesure « une réduction pouvant atteindre 50 % de FLOPS à l’inférence ».
Reste à tester cette approche à l’échelle avec de plus grands modèles. Et à adapter l’ensemble des jeux de données et des outils.