Existe-t-il réellement des modèles de machine learning et de grands modèles de langage open source ? C’est la question que se pose la LF AI & Data depuis la création du programme Generative AI Commons, lancé à l’occasion de l’Open Source Summit de Bilbao, en septembre dernier.

« Le sujet de l’IA ouverte pose plusieurs défis », déclare Ibrahim Haddad, vice-président des programmes stratégiques chez la Linux Foundation et directeur de la LF AI & Data Foundation. « Une grande partie de ces défis est liée au régime de licence utilisé. Quand des modèles d’IA dit ouverts sont mis à disposition, dans certains cas, des licences logicielles open source sont utilisées pour concéder des droits sur des composants qui ne sont pas du code source », illustre-t-il.

A contrario, « la complétude consiste à fournir des informations complètes et bien documentées pour tous les éléments, en veillant à ce que chaque élément soit complet, autonome et utilisable de manière significative, utilisable sans nécessiter de contexte ou de ressources supplémentaires ».

« L’ouverture est une propriété binaire qui indique si un composant est soumis à une licence ouverte ou non », précisent les contributeurs principaux du framework. « Un composant est considéré comme “ouvert” si et seulement s’il est distribué sous une licence qui accorde aux utilisateurs le droit d’accéder, d’utiliser, de modifier et de partager librement le composant. ».

La deuxième catégorie s’attache au code nécessaire à l’entraînement, à l’inférence, aux jeux de données et base de code d’évaluation, ainsi qu’aux outils et librairies utilisés.

Ainsi, la première catégorie s’intéresse à la présence (ou non) d’un article de recherche pour accompagner la disponibilité d’un modèle et sa complétude, aux jeux de données utilisées, aux paramètres, ainsi qu’aux checkpoints intermédiaires du modèle et leur ouverture.

Près de 80 organisations et entreprises auraient contribué ou assisté à sa conception. Le framework tient en un système de classification divisé en trois catégories afin de qualifier de l’ouverture du code, des données et de la documentation associée aux LLM.

En réalité, il n’est techniquement pas possible de parler d’IA open source, selon Ofer Hermoni, consultant en stratégie IA chez Stealth, cofondateur de la LF AI&Data et membre du comité éducation et sensibilisation de Generative AI Commons. « Beaucoup de gens parlent d’IA open source, alors qu’il n’existe rien de tel. Pourquoi ? Parce que le terme n’est pas encore officiellement défini ».

La plupart des LLM « ouverts » échouent à l’épreuve du Model Openness Framework

Les trois catégories de classification du Model Openness Framework.

Lors de l’AI Dev Forum, la LF AI&Data a présenté la version bêta de Model Openness Tool (MoT), une implémentation du framework MOF disponible depuis le site Web « is It Open ? ».

Pour l’instant, il permet aux fournisseurs et aux utilisateurs de rapporter les licences utilisées et l’existence ou non des 17 éléments listés.

Ainsi, l’outil juge de la bonne utilisation des licences logicielles approuvées par l’OSI et du recours aux licences CC-BY-4.0 et CDLA-Permissive-2.0 pour les données et la documentation. Dans le second cas, le recours à des licences de contenus ouverts est considéré comme « acceptable ».

Le constat est sans appel.

« Nous avons déjà analysé plusieurs modèles dits ouverts. La plupart d’entre eux ne répondent pas à la définition existante de l’open source », souligne Ofer Hermoni.

La consultation du site Web « is It Open ? » reflète bien ce phénomène. Quand bien même certains projets obtiennent la validation de la catégorie 3, cette dernière est « conditionnelle », parce que seul l’accès aux poids est véritablement ouvert. Certains modèles, dont ceux d’IBM sont accompagnés de tous éléments attendus, mais les licences associées à la documentation et aux données sont « invalides », car absentes.