xy - stock.adobe.com

IA open source : OpenLLM-France touche du doigt le Graal

Le consortium OpenLLM France dit avoir réussi à entraîner une collection de LLM respectueuse de la définition de l’IA open source par l’Open Source Initiative, tout en tentant de dépasser ce cadre. Un défi de taille quand il faut réunir des milliers de milliards de mots (tokens).

OpenLLM-France. Ce consortium porté par l’éditeur français Linagora et 16 autres acteurs s’est donné pour mission de proposer des grands modèles de langage « véritablement ouverts » et souverains. Dans les faits, ce sont majoritairement des employés de Linagora qui entraînent les LLM.

 OpenLLM-France avait tenté l’aventure avec Claire, une collection de modèles basés sur Falcon-7B. Il remet le couvert avec Lucie, cette fois-ci en reproduisant l’architecture neuronale de Llama 3.1. Précisons que le groupe de chercheurs ne reprend pas le code de Meta, mais s’en inspire. Le modèle de base est donc un transformer dense, « decoder only ». Il a été entraîné à l’aide d’un fork du framework ouvert (une licence Apache 2.0 annotée) Megatron DeepSpeed.

Lucie est une collection de modèles dotés de 6,71 milliards de paramètres. Ils disposent chacun d’une fenêtre de contexte de 4 096 tokens, allongée à 32 000 tokens. Leurs poids et les optimiseurs sont sous licence Apache 2.0. Les pipelines d’entraînement sont accessibles sous licence GPL v3. OpenLLM France donne également accès aux recettes pour les fine-tuner et les compresser.

Les modèles ont été entraînés sur une portion du supercalculateur Jean Zay du GENCI, dont les ressources ont été fournies par l’IDRIS (CNRS). OpenLLM a pu accéder à 512 GPU Nvidia H100 (80 Go de VRAM) pendant 550 000 heures GPU. À l’inférence, Lucie 7B réclame au minimum 6 Go de VRAM et idéalement 16 Go, dans sa version compressée (quantized) en 4 bits. Somme toute, l’objectif de frugalité est atteint. Il est déjà prévu de proposer une variante dotée d’environ 1,5 milliard de paramètres.

OpenLLM France aligne son travail sur la définition de l’IA open source par l’OSI

« Lucie fait ainsi partie des tout premiers modèles conformes à la définition de l’IA open source proposée par Open Source Initiative (OSI) », assure Jean Pierre Lorre, directeur de recherche chez Linagora, sur LinkedIn.

Cette définition, publiée à la fin du mois d’octobre 2024, est respectée par un petit nombre de collections de LLM. Lucie rejoint donc le projet OLMO-2, Pythia, CrystalCoder et Amber.

En revanche, l’OSI a préféré ne pas exclure les projets utilisant des données propriétaires. L’organisation justifie cette décision par le fait que, dans certains domaines, il peut être préférable de ne pas exposer ou de partager toutes les données. Et de prendre l’exemple de projets d’IA dans le monde médical. En réalité, la disparité entre les législations permet difficilement de déclarer qu’un jeu de données est libre de droits partout où il peut être téléchargé.

« Nous sommes toujours en discussion avec le détenteur des droits d’auteur d’un sous-corpus du Lucie-Training-Dataset. »
OpenLLM-FranceConsortium porté par l’éditeur français Linagora

Pour autant, concernant la version préentraînée de Lucie, OpenLLM-France va au-delà de la définition de l’IA open source par l’OSI et se rapproche de celle de l’open source tout court. À un détail près.

« Nous sommes toujours en discussion avec le détenteur des droits d’auteur d’un sous-corpus du Lucie-Training-Dataset et nous demandons donc que l’utilisation du modèle soit limitée à des fins non commerciales jusqu’à ce que les détails de cette discussion soient finalisés », prévient OpenLLM-France.

Les autres sous-corpus sont sous licence open source ou copyleft. Le modèle a principalement été entraîné en anglais, en français, et – « dans une moindre mesure » – en allemand, en espagnol et en italien. La proportion et la provenance des données sont directement affichées sur la page Hugging Face du projet.

Utiliser des données ouvertes, un défi supplémentaire

Il y a un effet immédiat de cette sélection de données non plus seulement publiques, mais libres de droits (ou presque). Lucie 7B n’a été préentraîné qu’avec 3 000 milliards de tokens. Les fournisseurs de LLM les plus en vogue exploitent généralement 10 à 15 000 milliards de tokens.

Cela devient plus complexe de faire la même chose avec des modèles instruits. OpenLLM-France arrive en grande partie à respecter son cahier des charges. Ainsi, il existe deux versions instruites de Lucie. L’une a été entraînée en partie avec des données synthétiques générées à travers ChatGPT, Llama (Meta) et Gemma (un modèle open weight de Google DeepMind).

L’autre a été fine-tunée à l’aide des paires de questions-réponses rédigées manuellement, dont PIAF, Dolly, Flan v2, ou encore ENS. Tous ces jeux de données sont disponibles à travers une licence open source ou non-commerciale.

Peut-on alors poser l’expression « totalement open source » à côté du nom de la collection ? Non est la réponse la plus prudente, même si OpenLLM-France touche du doigt cette appellation.

Contrairement aux autres équipes de recherche, celle d’OpenLLM France ne présente pas les performances de ces modèles. Linagora précise de son côté que Lucie a été entraînée afin de répondre à des cas d’usage dans le domaine de l’éducation. Ce projet s’inscrit dans l’appel à projets « Communs Numériques pour l’IA générative ». Il est en partie une émanation de France 2030.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM