Coloures-pic - Fotolia

IA : les Small Language Models vont s’imposer

Grâce à leurs qualités, les petits modèles de langage (ou Small Language Models) commencent à séduire les professionnels qui voient en eux une solution moins coûteuse, plus adaptée à leurs métiers et plus auditable que les LLM. Mais il n’y a pas de modèle miracle.

Selon Gartner, les Small Language Models (SLM) sont une alternative crédible et plus économique pour développer et déployer l’intelligence artificielle générative. Ces « petits » modèles sont plus simples à fine-tuner, plus efficients lors de l’exécution (inférence) et plus faciles à contrôler que les modèles plus « gros ».

Dans son rapport Explore small language models for specific AI scenarios (2024), Gartner revient sur la manière dont les notions de « petit » et « grand » ont évolué.

Les estimations donnent une idée de l’écart : GPT-4 (OpenAI – mars 2023), Gemini 1.5 (Google – février 2024), Llama 3.1 405B (Meta – juillet 2024) et Claude 3 Opus (Anthropic – mars 2024) tournent autour de 500 milliards à 2 000 milliards de paramètres. À l’autre extrémité, Mistral 7B (Mistral.AI – septembre 2023), Phi-3-mini 3.8B et Phi-3-small 7B (Microsoft – avril 2024), Llama 3.1 8B (Meta – juillet 2024) et Gemma 2 9B (Google – juin 2024) ont 10 milliards de paramètres ou moins.

Par exemple, Llama 3 8B (8 milliards de paramètres) nécessite 27,8 Go de mémoire GPU. Llama 3 70B en demande 160 Go. Et avec les prix actuels des GPU, un serveur capable de faire tourner en mémoire un modèle complet de 670 milliards de paramètres comme DeepSeek-R1 coûterait plus de 100 000 dollars.

La distillation ou le transfert de connaissances

Un SLM est plus petit qu’un LLM (Large Language Model), car il est entraîné sur un sous-ensemble de données. Revers de la médaille, il peut donc avoir des lacunes. Pour pallier ces manques, il existe une technique appelée « knowledge distillation » (distillation des connaissances).

« Ce transfert de connaissances est une des approches les plus prometteuses pour démocratiser des capacités avancées, sans la lourdeur computationnelle des modèles de plusieurs milliards de paramètres. »
Jarrod VawdreyField chief data scientist, Domino Data Lab

Jarrod Vawdrey, field chief data scientist chez Domino Data Lab, explique : « Ce transfert de connaissances est une des approches les plus prometteuses pour démocratiser des capacités avancées, sans la lourdeur computationnelle des modèles de plusieurs milliards de paramètres. »

Selon lui, un SLM « distillé » améliore significativement la qualité des réponses et le raisonnement, tout en nécessitant encore moins de ressources.

Le processus commence par deux éléments : un LLM pré-entraîné qui joue le rôle de « professeur » et une architecture plus petite qui devient l’« élève ». Celle-ci est initialisée de manière aléatoire ou avec un pré-entraînement de base.

Augmenter les SLM

Aucun modèle, grand ou petit, ne répond à tous les besoins. En entreprise, il faut donc souvent combiner les données métier avec un modèle IA.

Pour Dominik Tomicevic, CEO de Memgraph (éditeur de bases graphes), tout est une question de contexte. « Pour des problèmes généralistes ou scolaires, un LLM peut être suffisant. Mais dès qu’on a besoin d’une IA adaptée à un lexique spécifique, il faut passer à un SLM », tranche-t-il.

Par exemple, la façon dont une entreprise mélange la peinture ou planifie ses livraisons est unique. « Une IA [dans ces contextes] n’a pas besoin de savoir qui a gagné la Coupe du monde en 1930 », ajoute-t-il. « Vous avez besoin qu’elle vous aide à optimiser un problème particulier dans votre domaine d’activité ».

Cela dit, intégrer les données métiers dans un SLM reste un défi technique, avertit Dominik Tomicevic. « Tant que l’architecture de base que se partagent le LLM et le SLM (le transformer) n’évolue pas, mettre à jour un modèle de langage reste compliqué », souligne-t-il. « Ces modèles préfèrent être entraînés d’un bloc et ne raisonnent qu’à partir de ce qu’ils savent. »

La solution ? Associer le SLM à un knowledge graph et/ou à un RAG (retrieval augmented generation). Les systèmes d’IA récupèrent ainsi les informations les plus pertinentes avec moins de coûts et plus de précision. « Cela améliore aussi le raisonnement en allant chercher dynamiquement les données actualisées plutôt que de rester sur un stockage statique », ajoute-t-il.

Pour Chris Mahl, CEO de Pryon (éditeur d’une plateforme de gestion des connaissances), cette approche permet aussi de faire tourner les SLM sur du matériel standard, tout en leur apportant de l’intelligence spécialisée là où il faut. « Cela change la donne. Les entreprises peuvent déployer des IA là où c’était auparavant impossible et démocratiser l’accès au-delà des frontières géographiques ou techniques. »

Moins d’erreurs, moins d’hallucinations

Les LLM souffrent d’un autre problème bien connu : les hallucinations. Ils « inventent » parfois des réponses.

Mais ils ont une autre qualité. Rami Luisto, healthcare AI lead data scientist chez Digital Workforce, estime que les SLM sont plus transparents. « Quand l’explicabilité et la confiance sont cruciales, auditer un SLM est bien plus simple que d’essayer d’extraire les raisons du comportement d’un LLM », assure-t-il.

Anushree Verma, analyste chez Gartner, constate en tout cas un basculement vers ces modèles spécialisés par domaine et plus légers, qui peuvent être personnalisés. À terme, ces SML devraient jouer le rôle d’experts, en complément d’IA (et d’IA agentiques) motorisées par des modèles plus généralistes.

Comment fonctionne la distillation ?

Jarrod Vawdrey, de Domino Data Lab explique que plusieurs méthodes de distillation de modèle existent, à la fois avec des données structurées (comme des jeux de données tagués avec des catégories claires) et des données non structurées (comme des conversations ou du code) :

  • Distillation par réponses : le SLM apprend à reproduire la distribution de probabilité de sortie du LLM, en se concentrant sur les résultats finaux.
  • Distillation par caractéristiques : au-delà des réponses, le SLM imite le raisonnement du LLM à différentes étapes.
  • Distillation en plusieurs étapes : un transfert séquentiel par modèles intermédiaires de taille décroissante, comme un système de tutorat. Un diplômé d’université enseigne à un lycéen brillant qui transmet ensuite à un élève plus jeune.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM