Maridav - stock.adobe.com

IBM se dit bien parti pour rattraper OpenAI et Anthropic… avec un petit LLM

Les stars de la collection de modèles Granite 3.2 ne sont autres que des modèles de raisonnement de 8 et 2 milliards de paramètres. IBM Research dit avoir trouvé la méthode pour battre OpenAI, DeepSeek et Anthropic à leur propre jeu.

Outre la volonté de racheter DataStax, IBM a annoncé une nouvelle fournée de modèles « open weight » (dont les poids sont sous licence Apache 2.0). Les « checkpoints » de la collection Granite 3.2 sont accessible depuis watsonx.ai, Hugging Face, Ollama, LMStudio et Replicate. Certains articles de recherche avaient déjà permis de se rendre compte des progressions d’IBM Research.

Petit modèle de langage-vision, modèle de prédiction quotidienne et hebdomadaires, modèles d’embedding épars… IBM Research n’oublie personne.

Modèle de raisonnement hybride : Anthropic et IBM sur la même longueur d’onde

Au vu de la tendance imposée par DeepSeek, Big Blue met d’abord en avant ces modèles doués de raisonnement, Granite 3.2 8B Instruct et Granite 3.2 2B instruct.

Comme leur nom l’indique, ces LLM denses sont des variantes instruites de modèles dotés respectivement de 8 milliards et de 2 milliards de paramètres (2,53 milliards exactement). Ils sont tous deux dotés d’une fenêtre de contexte de 8192 tokens.

IBM Research prend la même direction qu’Anthropic. Ils ont introduit davantage de prompts « Chain of Thoughts » (cheminements de pensée, en français) dans leur pipeline d’entraînement et d’apprentissage par renforcement. De la même manière que Claude 3.7 Sonnet, les capacités de raisonnement peuvent être activées ou désactivées à la demande de l’usager, à l’aide de tokens spéciaux.

Si les réponses des modèles de raisonnement sont plus fournies, c’est aussi parce qu’ils prennent plus de temps à l’inférence pour répondre. Cela implique aussi le recours à davantage de ressources de calcul. D’où la présence d’une sorte d’interrupteur (« thinking » : true ou « thinking » : false) suivant la tâche à accomplir.

Garantie sans DeepSeek, affirme IBM

L’autre problème des modèles de raisonnement, c’est qu’ils auraient tendance à « oublier » des connaissances générales. La cause de ce phénomène s’expliquerait par le fait qu’ils assimilent à l’entraînement davantage de jeux de données consacrées aux mathématiques et à la logique.

« Pour éviter cela, IBM a développé Granite 3.2 Instruct en appliquant directement à Granite 3.1 Instruct un framewok d’apprentissage par renforcement basé sur l’optimisation des préférences de la pensée (TPO) », indiquent les chercheurs.

TPO est une technique élaborée par des chercheurs du FAIR de Meta en octobre dernier.

Un LLM as a juge est utilisé pour évaluer les étapes de « pensées » du modèle, puis ce résultat est « optimisé » par une technique d’optimisation directe des préférences.

En clair, les chercheurs d’IBM n’ont pas repris la méthodologie de DeepSeek reposant sur des règles pour récompenser les modèles.

« Cela a permis à l’instructeur Granite 3.2 de bénéficier de performances accrues dans les tâches nécessitant un raisonnement complexe sans compromettre les performances dans d’autres domaines ».

Ils n’ont pas non plus repris la méthode de distillation de connaissances pour entraîner des modèles de taille équivalente aux variantes de R1 proposées par DeepSeek. « Cela simplifie grandement leurs implications réglementaires », notent les chercheurs.

Pour autant, les Granite 3.2 Instruct ont été entraînés à l’aide d’un mix de données dotées d’une licence ouverte permissive et des données synthétiques générées en « interne ». Cela représente un total de 12 000 milliards de tokens.

Granite 3.2 8B Instruct égale ou surpasse DeepSeek R1 Distill Llama 8B et DeepSeek R1 Distill Qwen 7B. Plus étonnant, et IBM le met beaucoup moins en avant, le modèle de deux milliards de paramètres dépasse également ces concurrents dans les parangonnages présentés.  

Certains usagers rapportent que Granite 3.2 8B produits des réponses incluant deux langues… un problème qui avait conduit DeepSeek à revoir ses pipelines d’entraînement.

Huit milliards de paramètres (et quelques techniques) pour battre OpenAI et Anthropic

Qu’à cela ne tienne. Lors de certaines expériences visant à prolonger le temps de réponse lors de l’inférence, IBM assure que Granite 3.2 8B Instruct a atteint les performances de raisonnement en mathématiques de versions spécifiques de GPT-4o (GPT-4o-0513) et Claude 3.5 Sonnet (Claude-3.5-Sonnet-1022).

Pour surpasser les modèles d’Anthropic et d’OpenAI et des autres, IBM a testé deux méthodes : « le filtrage à particule » et le « vote à majorité ».

Avec le filtrage à particule, il s’agit d’appliquer des méthodes probabilistes traditionnelles, dont la méthode de Monte Carlo. Ici, un modèle de récompense compagnon « guide » les étapes du raisonnement du LLM avant de produire un résultat complet. Un tel modèle de récompense est nommé Process Reward Model (PRM). Pendant les tests effectués par IBM, le PRM n’était autre qu’une version fine-tunée de Qwen 2.5-Math-7B. Celui-ci a noté les réponses intermédiaires de Granite 3.2 8B Instruct. Des notes que le LLM a pris en compte afin d’améliorer la réponse finale.

L’autre technique, le vote à majorité, consiste à échantillonner plusieurs réponses et choisir celle qui revient le plus souvent. Dans une deuxième phase de ce processus, IBM a entraîné une version du modèle Granite 3.2 capable de produire des raisonnements mathématiquement plus longs. C’est là que LLM aurait battu ses pairs.

IBM croit désormais que la combinaison des deux techniques est la voie à suivre pour qu’un modèle de 8 milliards de paramètres surpasse les très grands modèles de langage d’OpenAI, d’Anthropic et de DeepSeek.

Granite 3.2 est également accompagné d’une version « garde-fous » pouvant être utilisée comme un LLM as a Judge et qui a d’ailleurs été utilisé pour éviter les réponses toxiques des deux précédents modèles. Il est aussi décliné dans une variante disposant d’une architecture à mélange épars d’experts (SMoE), qui n’enclenche que 800 millions de ses 3 milliards de paramètres (présents en VRAM) à l’inférence.

Pour approfondir sur IA appliquée, GenAI, IA infusée