Mathstral, Codestral Mamba : pour Mistral AI, « small is beautiful »

Après Codestral, Mistral AI a libéré le 16 juillet deux grands modèles de langage « open weight » de faible taille, centrés sur les mathématiques et la programmation. Outre un moyen de prouver ses capacités de fine-tuning, la startup s’essaye à l’architecture alternative à Transformer, Mamba-2.

Mistral AI ajoute deux modèles Ă  son portfolio. La startup française avait dit qu’elle maintiendrait ses efforts pour la communautĂ© des sciences ouvertes. Promesse tenue. Les checkpoints, les poids, les tokenizers et les paramètres de Mathstral (MathÎŁtral) et Codestral Mamba sont proposĂ©s sous licence Apache 2.0.

Mathstral : prouver les bienfaits du fine-tuning de Mistral 7B

Mathstral est une dĂ©clinaison de Mistral-7B « instruite Â» pour rĂ©soudre des problèmes de mathĂ©matiques avancĂ©es.

 Il a Ă©tĂ© concoctĂ© dans le cadre de la collaboration de Mistral AI avec le projet scientifique Numina. Celui-ci a Ă©tĂ© fondĂ© par Jia Li, Yann Fleureau, HĂ©lène Evain (trois anciens de la startup Cardiologs), Guillaume Lample (cofondateur et directeur scientifique chez Mistral AI) et Stanislas Polu (cofondateur de Dust et ex-ingĂ©nieur de recherche chez OpenAI).

L’ONG Numina entend rassembler une grande base de donnĂ©es de problèmes de mathĂ©matiques et leurs rĂ©solutions, les utiliser pour entraĂ®ner des modèles d’IA accessibles librement et fournir des outils pour ce faire. Outre Mistral AI, Numina reçoit le soutien d’Hugging Face, de General Catalyst, d’Answer AI et du centre international de recherche en mathĂ©matiques de Beijing (Peking University). Pour l’instant, Numina a dĂ©clinĂ© deux modèles basĂ©s sur les LLM de la startup chinoise DeepSeek.

Avec 7 milliards de paramètres et sa fenĂŞtre de contexte de 32 000 tokens, Mathstral dĂ©croche un score de 56,6 % au benchmark gĂ©nĂ©rique MATH, au coude Ă  coude avec Qwen2 7B d’Alibaba et devant Gemma 2 9B (48,3 %) ou Llama 3 8B (28,4 %).

Mistral 7B n’atteignait que 13,1 % sur cette Ă©valuation et Mathstral le dĂ©passe de peu sur le fameux MMLU (60,1 % contre 63,47 %). Selon Mistral AI, en allongeant la durĂ©e d’infĂ©rence (sans dire de combien), il obtient un score de 68,37 % au mĂŞme benchmark. 

Sur le test GSM8K, le LLM instruit surpasse lĂ©gèrement Llama 3 8B (77,1 % contre 75,4 %), mais demeure derrière DeepSeek Math 7B. Il affiche la note de 56,9 % au test GRE Math, uniquement doublĂ© par QWen 2 7B (58,2 %) dans le tableau prĂ©sentĂ© par la startup. Sur les parangonnages Odyssey Math et AMC 2023, Mathstral est devant ses concurrents du moment (37,2 % et 42,30 %). Les LLM semblent toutefois lutter pour rĂ©soudre les 30 problèmes de la compĂ©tition AIME 2024. Mathstral en a rĂ©ussi deux sur les 30, tout comme QWen 2 7B, quand les autres modèles de langage Ă©chouent totalement ou en complètent un seul.

Ici, Mistral AI veut prouver les bienfaits du fine-tuning, qui plus est avec de « petits Â» LLM. « Mathstral est un autre exemple des excellents compromis performance/vitesse obtenus lors de l’entraĂ®nement de modèles Ă  des fins spĂ©cifiques – une philosophie de dĂ©veloppement que nous encourageons activement dans La Plateforme, en particulier avec ses nouvelles capacitĂ©s de fine-tuning Â», assure l’équipe de Mistral AI.

Codestral Mamba : une nouvelle architecture dans le portfolio de Mistral

La startup ne cible pas le mĂŞme objectif avec Codestral Mamba. Après l’adoption des architectures denses (Mistral 7B) et SMoE (Sparse Mixture of Experts), Mistral Ai s’essaye Ă  Mamba 2.

Mamba est une architecture mise sur pied par les chercheurs Albert Gu, du pĂ´le machine learning de l’UniversitĂ© Carnegie Mellon et Tri Dao, directeur scientifique de Together AI et professeur assistant au dĂ©partement de sciences computationnelles de l’universitĂ© de Princeton.

L’architecture Mamba est pensée pour résoudre l’un des plus gros défauts des modèles Transformer et de leurs mécanismes d’attention.

« L’efficacitĂ© de l’auto-attention est attribuĂ©e Ă  sa facultĂ© d’acheminer l’information de manière dense dans une fenĂŞtre contextuelle, ce qui lui permet de modĂ©liser des donnĂ©es complexes Â», rappellent les deux chercheurs. « Toutefois, cette propriĂ©tĂ© prĂ©sente des inconvĂ©nients fondamentaux : l’incapacitĂ© de modĂ©liser quoi que ce soit en dehors d’une fenĂŞtre finie, et une Ă©chelle quadratique par rapport Ă  la longueur de la fenĂŞtre Â».

Pour « la faire courte Â», la fenĂŞtre de contexte des LLM est justement… trop courte. Plusieurs techniques ont Ă©mergĂ© pour tenter de rĂ©soudre ce problème, mais sans rĂ©sultat probant, considèrent-ils.

En rĂ©ponse Ă  cela, Albert Gu est l’un des artisans des « modèles sĂ©quentiels espace-Ă©tat structurĂ©s Â» (structured state space sequence models ou SSM). « Ces modèles peuvent ĂŞtre interprĂ©tĂ©s comme une combinaison de rĂ©seaux neuronaux rĂ©currents (RNN) et convolutifs (CNN) avec une inspiration des modèles classiques espace-Ă©tat Â», indiquent les chercheurs.

Les modèles espace-état aident en statistiques à modéliser des séries temporelles et des systèmes dynamiques. Ils décrivent un système par un ensemble d’équations, divisant le problème en un état latent non observable (des variables cachées désignant l’état interne) et des observations mesurables (des variables ou signaux). Ces modèles sont particulièrement utiles pour des applications comme le filtrage, le lissage et la prévision de données.

Les SSM hĂ©ritent indirectement de ces capacitĂ©s et ont fait leurs preuves pour traiter des signaux de donnĂ©es continues comme dans l’audio et la vidĂ©o. C’était moins le cas pour le traitement de donnĂ©es textuelles.

Albert Gu et Tri Dao entendent boucher ce trou dans la raquette avec des modèles espace-Ă©tat sĂ©lectifs (selective state space models).

Au lieu d’un mĂ©canisme d’attention, Mamba est dotĂ© d’un mĂ©canisme sĂ©lectif qui permet de se concentrer ou d’ignorer des Ă©lĂ©ments d’une sĂ©quence en entrĂ©e (Ă  l’entraĂ®nement ou Ă  l’infĂ©rence). Les chercheurs avaient alors remplacĂ© les couches d’attention et de perceptron multicouche d’un Transformer par un bloc « simplifiĂ© Â». En contrepartie, le SSM doit ĂŞtre entraĂ®nĂ© comme un rĂ©seau de neurones rĂ©currents, ce qui Ă  la fois moins coĂ»teux et moins adaptĂ© aux orientations des infrastructures actuelles (les GPU et les frameworks associĂ©s sont fortement optimisĂ©s pour les Transformers).

Mamba essaime. Outre le développement parallèle de SSM, il a inspiré certaines architectures hybrides SSM-Transformer, dont celles développées par A21Labs, Jamba. Il est un exemple dans la conception d’approches sensiblement différentes comme l’architecture Griffin de Google, qui a donné naissance à ReccurentGemma et mise plutôt sur une attention locale.

Avec le framework pensĂ© pour crĂ©er Mamba 2, les chercheurs ont Ă©tendu les capacitĂ©s de fusion entre SSM et les Ă©lĂ©ments cĹ“urs des Transformer, tout en simplifiant les opĂ©rations d’entraĂ®nement. Ce framework, nommĂ© dualitĂ© espace-Ă©tat (space state duality ou SSD), « Ă©tablit des liens entre les SSM, les matrices structurĂ©es et l’attention (linĂ©aire) Â».

RĂ©sultat, Mamba 2, toujours un rĂ©seau de neurones rĂ©current, est deux Ă  huit fois plus vĂ©loce que Mamba premier du nom tout en Ă©tant compĂ©titif face Ă  l’architecture Transformer. Il est surtout plus efficient Ă  l’entraĂ®nement.  

« Contrairement aux modèles Transformer, les modèles Mamba offrent l’avantage d’une infĂ©rence en temps linĂ©aire et la possibilitĂ© thĂ©orique de modĂ©liser des sĂ©quences de longueur infinie Â», rĂ©sume Mistral AI, qui a Ă©tĂ© aidĂ© par les deux chercheurs pour entraĂ®ner Codestral Mamba. « Ils permettent aux utilisateurs d’exploiter le modèle de manière intensive et d’obtenir des rĂ©ponses rapides, quelle que soit la longueur de l’entrĂ©e Â».

Cette architecture qui a fait ses preuves pour des données audiovisuelles et génomiques serait également intéressante pour la programmation, ajoute Mistral AI.

RĂ©sultat, Codestral Mamba Instruct, avec sa fenĂŞtre de contexte de 256 000 tokens et ses 7,3 milliards de paramètres, recueille des scores proches de son grand frère Codestral 22B (22 milliards de paramètres) sur les benchmarks HumanEval (75 % vs 81,1 %), HumanEval C++ (59,8 % vs 65,2 %), HumanEval Java (57 % vs 63,3 %), Spider (58,8 % vs 63,5 %). Il parvient mĂŞme Ă  le battre contre le benchmark CruxE (57,8 % vs 51,3 %). Codestral 22B conserve une avance notable de plus de dix points face Ă  MBPP et HumanEval Bash. 

Pour autant, et c’est sans doute le plus important pour Mistral AI, Codestral Mamba dĂ©passe CodeGemma 1.1 7B, CodeLlama 7B, DeepSeek v 1.5 7B et, dans la plupart des CodeLlama 34B.

« C’est le modèle de code le plus performant pour sa taille, [il est] parfait pour les applications de type copilote Â», vante ThĂ©ophile Gervet, chercheur chez Mistral AI, sur X (ex-Twitter).

Mathstral et Codestral Mamba sont disponibles sur HuggingFace, Ollama et sur La Plateforme, l’endroit oĂą sont rĂ©unies les API payantes de la startup. Pour infĂ©rer ces deux LLM, Mistral AI recommande une machine Ă©quipĂ©e d’un GPU dotĂ© d’au moins 16 Go de VRAM.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM