OpenLLM-France. Ce consortium porté par l’éditeur français Linagora et 16 autres acteurs s’est donné pour mission de proposer des grands modèles de langage « véritablement ouverts » et souverains. Dans les faits, ce sont majoritairement des employés de Linagora qui entraînent les LLM.

OpenLLM-France avait tenté l’aventure avec Claire, une collection de modèles basés sur Falcon-7B. Il remet le couvert avec Lucie, cette fois-ci en reproduisant l’architecture neuronale de Llama 3.1. Précisons que le groupe de chercheurs ne reprend pas le code de Meta, mais s’en inspire. Le modèle de base est donc un transformer dense, « decoder only ». Il a été entraîné à l’aide d’un fork du framework ouvert (une licence Apache 2.0 annotée) Megatron DeepSpeed.

Lucie est une collection de modèles dotés de 6,71 milliards de paramètres. Ils disposent chacun d’une fenêtre de contexte de 4 096 tokens, allongée à 32 000 tokens. Leurs poids et les optimiseurs sont sous licence Apache 2.0. Les pipelines d’entraînement sont accessibles sous licence GPL v3. OpenLLM France donne également accès aux recettes pour les fine-tuner et les compresser.

Les modèles ont été entraînés sur une portion du supercalculateur Jean Zay du GENCI, dont les ressources ont été fournies par l’IDRIS (CNRS). OpenLLM a pu accéder à 512 GPU Nvidia H100 (80 Go de VRAM) pendant 550 000 heures GPU. À l’inférence, Lucie 7B réclame au minimum 6 Go de VRAM et idéalement 16 Go, dans sa version compressée (quantized) en 4 bits. Somme toute, l’objectif de frugalité est atteint. Il est déjà prévu de proposer une variante dotée d’environ 1,5 milliard de paramètres.

OpenLLM France aligne son travail sur la définition de l’IA open source par l’OSI « Lucie fait ainsi partie des tout premiers modèles conformes à la définition de l’IA open source proposée par Open Source Initiative (OSI) », assure Jean Pierre Lorre, directeur de recherche chez Linagora, sur LinkedIn. Cette définition, publiée à la fin du mois d’octobre 2024, est respectée par un petit nombre de collections de LLM. Lucie rejoint donc le projet OLMO-2, Pythia, CrystalCoder et Amber. En revanche, l’OSI a préféré ne pas exclure les projets utilisant des données propriétaires. L’organisation justifie cette décision par le fait que, dans certains domaines, il peut être préférable de ne pas exposer ou de partager toutes les données. Et de prendre l’exemple de projets d’IA dans le monde médical. En réalité, la disparité entre les législations permet difficilement de déclarer qu’un jeu de données est libre de droits partout où il peut être téléchargé. « Nous sommes toujours en discussion avec le détenteur des droits d’auteur d’un sous-corpus du Lucie-Training-Dataset. » OpenLLM-FranceConsortium porté par l’éditeur français Linagora Pour autant, concernant la version préentraînée de Lucie, OpenLLM-France va au-delà de la définition de l’IA open source par l’OSI et se rapproche de celle de l’open source tout court. À un détail près. « Nous sommes toujours en discussion avec le détenteur des droits d’auteur d’un sous-corpus du Lucie-Training-Dataset et nous demandons donc que l’utilisation du modèle soit limitée à des fins non commerciales jusqu’à ce que les détails de cette discussion soient finalisés », prévient OpenLLM-France. Les autres sous-corpus sont sous licence open source ou copyleft. Le modèle a principalement été entraîné en anglais, en français, et – « dans une moindre mesure » – en allemand, en espagnol et en italien. La proportion et la provenance des données sont directement affichées sur la page Hugging Face du projet.