Miha Creative - stock.adobe.com
Dragon LLM, ce Français qui mise sur des SLM financiers frugaux
Longtemps spécialisée dans la traduction automatique de documents financiers, la société française Dragon LLM entend désormais entraîner des modèles de langage adaptés à des tâches spécifiques capables de s’exécuter en local ou sur des serveurs sans GPU. Quitte à développer sa propre architecture de SLM, basé sur l’approche hybride Mamba-Transformer.
Les acteurs du marché sont d’accord. Pour que l’IA générative gagne en pertinence, il est nécessaire de spécialiser les modèles de langage dans des domaines (des verticaux), et, idéalement, de les entraîner sur les données des organisations elle-même. Une autre tendance, due à la fois à la pénurie de composants et une nécessaire frugalité pour des raisons économiques (et écologiques ?), consiste en la mise à disposition de petits modèles de langage (Small Language Model ou SLM). Ceux-là doivent être calibrés pour s’exécuter sur des GPU de faible puissance ou sur des CPU.
Ce sont les deux créneaux de prédilection de Dragon LLM. Cette société française créée dans les Yvelines se nommait auparavant Lingua Custodia. Elle a été fondée en 2011. « Nous venons de l’univers du NLP (traitement du langage naturel) et de la traduction automatique pour le vertical financier », indique Olivier Debeugny, fondateur et CEO de Dragon LLM. LeMagIT a pu le rencontrer lors du salon Adopt AI, le 26 novembre dernier.
Au fil des ans, celle qui est récemment devenue Dragon LLM a entraîné des « milliers » de modèles NLP consacrés à la traduction de documents financiers. Elle a développé une plateforme SaaS hébergée sur des serveurs dédiés chez Scaleway. Elle est utilisée par des entités de certaines banques, dont BNP Paribas, Crédit Agricole, Crédit Mutuel, Natixis ou encore HSBC. Actuellement, Dragon LLM met à disposition plus de 200 modèles suivant la typologie des documents. Dernièrement, cette plateforme a intégré un système RAG. « C’est très utile pour répondre à des appels d’offres, faire du contrôle de cohérence entre des documents marketing et juridiques », illustre Olivier Debeugny.
NLP et finance, les deux expertises de Dragon LLM
Développer une telle plateforme n’était pas la volonté du dirigeant. La société s’est adaptée à la demande des clients. « Ce que je voulais faire il y a dix ans, c’était de vendre des modèles directement. Notre ADN, c’est de récupérer des données, de les traiter, d’entraîner un modèle et de les évaluer », souligne-t-il.
L’équipe de recherche de Dragon LLM publierait « trois à cinq articles » scientifiques par an. « Par exemple, cette année [en 2025, N.D.L.R], nous avons publié un papier sur le contrôle des hallucinations dans les systèmes RAG avec les équipes R&D de BNP Paribas », relate Olivier Debeugny.
Alors, quand ChatGPT a débarqué, le CEO n’a pas vu l’opportunité de créer une interface pour exploiter les modèles de langage, il l’en avait déjà mis une en place. Enfin, il pouvait appliquer son plan de départ : entraîner des modèles spécialisés.
« Nous, nous croyons à la notion de frugalité. Il n’est pas nécessaire d’avoir des modèles énormes pour traiter des cas d’usage très restrictifs », assure-t-il. « Du même qu’au départ nous entraînions des modèles pour traduire uniquement des prospectus financiers, de grandes banques viennent désormais nous voir pour traiter des cas d’usage très spécifiques – l’analyse de messages SWIFT, le suivi d’emprunts, etc. – qu’elles veulent exécuter sur un CPU ».
Cela passe évidemment par une analyse de faisabilité, fonction du cas d’usage, des performances attendues, des contraintes d’infrastructure et de la vitesse de réponse souhaitée. « Nous suivons régulièrement l’état de l’art », affirme Olivier Debeugny. « Parfois, ce n’est pas encore possible de traiter certains cas d’usage, mais dans d’autres ça l’est, et dans ces situations-là, nous pouvons faire du fine-tuning à la demande ».
Un partenariat avec L’Agefi pour entraîner des LLM dédiés à la finance
Pour ce faire, il faut des briques de bases. Les modèles open weight ne manquent pas. Un petit tour sur la plateforme Hugging Face suffit pour s’en rendre compte. Or, peu d’entre eux sont dédiés à la finance.
En collaboration avec L’Agefi, Dragon LLM a été sélectionnée dans le cadre d’un appel d’offres France 2030 pour entraîner des modèles spécialisés.
Au début du mois de novembre, Dragon LLM a publié deux collections de modèles open weight : LLM Open Finance et LLM Pro Finance.
Elles contiennent cinq modèles dotés de 8, 12, 33, et 71 milliards de paramètres et leurs variantes encodés en FP8. Ils sont entraînés sur la base des LLM Llama 3.1 de Meta (ex-Facebook), Qwen 3 d’Alibaba et Gemma 3 de Google DeepMind. « Nous les avons fine-tuné pour le langage et différentes tâches du monde financier –, classification de documents, analyses de sentiments, traduction, etc. », indique Olivier Debeugny.
Selon le dirigeant, le gros du travail a consisté à sélectionner les bonnes données.
« Plus de la moitié (54,4 %) de l’ensemble des données est constituée de contenu financier, notamment des analyses de marché, des documents réglementaires, des données comptables et des discussions financières synthétiques », peut-on lire dans la documentation. « Cela garantit une solide expertise dans les domaines de la banque, de l’investissement et du raisonnement économique ».
Résultat, les plus petits modèles font mieux qu’un LLM concurrent libéré par Salesforce. Et leur performance peut être affinée en fonction des besoins des entreprises, répète Olivier Debeugny.
Le choix de trois modèles de trois fournisseurs différents révèle l’intérêt des data scientists et des ingénieurs de DragonLLM pour les architectures de modèles.
« En parallèle du projet avec L’Agefi financé par Bpifrance, nous avons gagné un concours de la Commission européenne en 2024. Nous avons pu accéder aux supercalculateurs Leonardo en Italie, et Jupiter en Allemagne avant même qu’il soit en production », indique le dirigeant.
Les projets des quatre sociétés lauréates (Tilde, Textgain, Lingua Custodia, Unlabel) ont été sélectionnés parmi 94 propositions. Ils ont partagé 1 million d’euros et ont bénéficié de 8 millions d’heures de calcul sur les supercalculateurs Lumi, Leonardo et Jupiter.
« Les autres sociétés ont été choisies pour des sujets liés aux données et à la langue. Nous, nous avons attaqué ce sujet sur l’angle de l’architecture », relate Olivier Debeugny.
Dragon, une architecture hybride inspirée par Mamba-Transformer pour de petits modèles efficients
Alors que le marché à l’époque se concentrait sur les architectures dites denses (par exemple, Llama 3.1) et Mixture of Experts (GPT-OSS, Mixtral), Dragon LLM a choisi de tester l’architecture hybride Mamba-Transformer.
Comme l’a déjà expliqué LeMagIT, Mamba est une architecture développée en 2023 par Albert Gu, chercheur au pôle de machine learning de l’Université Carnegie Mellon et Tri Dao, directeur scientifique de Toghether AI et professeur assistant à l’université de Princeton. Elle remplace la couche d’attention (la relation entre les mots) et les perceptrons multicouches (le stockage des mots) qui ont fait le succès des Transformer par un bloc de réseau de neurones séquentiel à espace-état structuré (inspiré des modèles de prévision utilisés par exemple en complément des Historiens). Cela permet de filtrer en entrée des données ou éléments inutiles afin d’améliorer la mémorisation des modèles et d’allonger leur fenêtre de contexte. Les deux chercheurs en ont proposé une évolution avec Mamba 2 en mai 2024.
Tri Dao est aussi le papa de FlashAttention, rappelle Jean-Gabriel Barthelemy, ingénieur en apprentissage machine chez Dragon LLM. C’est la librairie qui a justement permis d’améliorer le calcul de l’attention et d’allonger les fenêtres de contexte de tous les LLM. « Avant cela, quand nous entraînions des modèles de traduction, nous ne pouvions pas dépasser des séquences de 1300 mots. Désormais, l’on peut traiter des séquences de millions de mots ».
L’intérêt de l’hybridation Mamba-Transformer a été mis au jour à la fin du mois de mars 2024 par le projet Jamba d’AI21 Labs, une société israélienne qui intéresse fortement Nvidia. Mistral AI s’y est également essayé.
En novembre 2024, les chercheurs de Nvidia ont suivi le mouvement en proposant une alternative nommée Hymba. C’est le projet qui a inspiré le développement de l’architecture Dragon, dévoilé en octobre 2025.
« Nous avons intégré d’autres composants de façon à proposer une architecture qui soit plus frugale. Notre modèle s’exécute rapidement sur de longs contextes, mais en utilisant deux fois moins de mémoire par rapport à un modèle basé sur un Transformer de la même taille », annonce Olivier Debeugny.
« Cela veut dire que nous pouvons servir deux fois plus d’utilisateurs en simultané à partir du même GPU », illustre Jean-Gabriel Barthelemy.
Par exemple, l’équipe de Dragon LLM a mis en pratique les modifications suggérées par des chercheurs de Nvidia. En lieu et place du pur Mamba 2, ceux-là ont développé Gated DeltaNet, une approche qui permet une gestion plus fine de la mémoire, en combinant des techniques d’oubli et de réécriture plus précise des paires clé-valeur. D’autres optimisations ont été réalisées par Dragon LLM afin d’assurer la stabilité de l’entraînement et du mécanisme d’attention. En conséquence, il faut techniquement parler d’une architecture Gated DeltaNet Networks – Transformer.
« Nous avons une “ligne directe” avec Albert Gu et Tri Dao », informe le dirigeant pour prouver le sérieux de la démarche.
Après avoir entraîné un premier modèle-démonstrateur de 3,6 milliards de paramètres à partir de 3 700 milliards de tokens, l’entreprise a annoncé le 30 décembre dernier la sortie d’un deuxième SLM de la même taille, mais cette fois-ci avec 10 000 milliards de tokens. Il est enfin prêt pour la production. La société se prépare à l’entraînement d’un modèle doté de 7 milliards de paramètres s’appuyant sur cette architecture. Le démonstrateur avait égalé les modèles denses de même taille sur les exercices liés au langage, mais avait pêché dans les tests de mathématiques et de code dû à une erreur au sein du tokenizer.
Le modèle de Dragon LLM peut être déployé sur des GPU, des serveurs standards, sur site, ou sur un ordinateur, en local. Un gage de souveraineté, dixit Olivier Debeugny. Après le lancement des modèles de base, il est déjà prévu d’en proposer une version consacrée à la finance.
