Pour le TOSIT, association fondée par de grandes structures françaises, l’autonomie numérique ne peut se résume pas au choix d’un éditeur européen. Postgres et plusieurs projets développés par ses membres montrent une voie complémentaire, voire prioritaire.
Regagner en souveraineté et en autonomie numérique ne passe pas seulement par l’acquisition d’outils logiciels propriétaires auprès des éditeurs européens. Le développement et la consommation d’alternatives open source constituent également des voies possibles. Ces composants ouverts trouvent leur place dans les infrastructures Data et IA, comme l’illustre le TOSIT, une association fondée par de grandes structures (Carrefour, EDF, Enedis, Orange, France Travail et SNCF), le souligne.
« 70 à 80 % des logiciels du marché proviennent de code open source », estime Florian Caringi, vice-président du TOSIT et directeur adjoint Data & Open Source du groupe BPCE.
L’expert encourage à questionner la pertinence des modèles de souscription propriétaires, dont les coûts augmentent de manière unilatérale, souvent de l’ordre de 30 %, sans justification fonctionnelle proportionnelle.
Pour les directions techniques, l’adoption de standards ouverts constitue une réponse pragmatique pour reprendre le contrôle sur une stack technologique. C’est particulièrement vrai dans le domaine de l’IA générative, où l’entraînement et les modèles reposent quasi exclusivement sur des briques ouvertes.
L’open source peut toutefois aussi être utilisé par certains acteurs dominants, dont Nvidia, pour capter une clientèle vers leurs solutions propriétaires, rappelle Florian Caringi. En fournissant un écosystème logiciel ouvert, le géant des GPU transforme ses outils en « produits d’appel » dont l’objectif est de piloter la consommation de ses propres composants matériels propriétaires.
L’Open Core, une véritable zone grise
Il convient de distinguer les modèles communautaires, les versions packagées par des éditeurs, qui permettent une industrialisation sans nouvelle dépendance commerciale, et l’Open Core, véritable zone grise.
« 70 à 80 % des logiciels du marché proviennent de code open source. »
Florian CaringiVice-président du TOSIT, Directeur adjoint Data & Open Source du groupe BPCE
Dans ce dernier modèle, les fonctionnalités critiques sont souvent verrouillées derrière des licences payantes. L’enjeu de la gouvernance est illustré par des moteurs SQL comme Trino, qui ne bénéficient pas encore d’une fondation neutre.
Il subsiste alors une incertitude sur l’entité qui pilote réellement la feuille de route, et donc sur l’autonomie technologique réelle. Sans une maîtrise de la gouvernance, l’entreprise utilisatrice risque de subir une inertie technique ou un enfermement fonctionnel masqué.
En ce qui concerne le retour sur investissement, il ne se mesure pas seulement en économies de licences, argue-t-on du côté de l’Orange Open Source Program. Il doit aussi tenir compte des hausses de prix annuelles des éditeurs.
Pour le vice-président du Tosit, il est impératif de rompre avec le mythe de la gratuité pour se concentrer sur la valeur ajoutée réelle. La transparence devient alors le pivot autour duquel s’organise la convergence des architectures de données modernes.
Pour les membres de l’association, « l’open source, c’est pas free… c’est transparent, c’est réversible et cela permet de prendre un contrôle sur le code ».
Postgres, la « base tout-terrain »
Une tendance lourde sur le marché est l’unification des expériences de données, où Kubernetes s’établit comme le socle universel de déploiement. Sur cette fondation, des outils comme DuckDB pour le prototypage ou DBT pour la transformation s’intègrent pour former une pile technologique cohérente.
Dans ce contexte, Postgres émerge comme la « base tout-terrain » par excellence, capable d’unifier le relationnel, le vectoriel et le graphe afin de simplifier drastiquement l’accès aux données. Mais une transition en mode Big Bang est souvent trop complexe, voire impossible à envisager.
Pour les organisations encore liées par des engagements contractuels lourds, la stratégie du « Dual Sourcing » s’impose comme une piste de transition, considère Florian Caringi. Elle permet de maintenir l’existant propriétaire tout en amorçant une migration progressive vers des briques ouvertes plus agiles.
Data Product et Data Contract
Pour pérenniser ces choix, l’adoption des concepts de « Data Product » et de « Data Contract » est centrale. Ces approches ne sont pas marketing. Pour l’expert, elles constituent des garanties contractuelles entre les unités métiers.
Ces notions, clés dans le Data Mesh, s’appuient sur des fichiers de configuration YAML qui intègrent directement dans le design du produit le principe de réversibilité, détaille-t-il. En codifiant les contrats d’interface, les entreprises s’assurent que leur logique métier reste portable, et indépendante des plateformes de traitement, managées ou on-premise.
Mais le TOSIT reconnaît que la maturité des architectures doit encore progresser, certains segments de l’offre open source doivent encore grandir pour concurrencer les suites intégrées des hyperscalers.
Le Low-Code, un angle mort de l’open source
Par exemple sur le segment du Low-Code. Le marché manque cruellement de solutions matures pour les « Citizen Data Scientists » souhaitant manipuler les données sans expertise en programmation.
Cette lacune force les entreprises à se tourner vers des versions « Enterprise » propriétaires pour offrir des interfaces web fonctionnelles à leurs collaborateurs. Elles recréent ainsi les dépendances que l’open source cherche justement à éviter.
Un autre champ de bataille concerne les portails et marketplaces de données personnalisables. Des initiatives comme le portail client de Google en open source existent, mais le besoin d’outils capables de s’adapter aux processus spécifiques de chaque organisation reste important.
Ces zones représentent de nouveaux territoires d’innovation pour les communautés du libre. Mais combler ces vides ne pourra se faire que par une mutualisation des efforts de spécification et une dynamique de développement collective, prévient Florian Caringi.
Plusieurs projets portés par le TOSIT, dont Onyxia, TDP ou OKDP, traduisent selon l’association les bénéfices d’une telle démarche.
Onyxia, la brique cloud native de l’Insee
L’Institut national de la statistique et des études économiques (Insee) a migré depuis des infrastructures locales vers une architecture cloud, et la plateforme Onyxia. Le projet, porté par les équipes Data, visait à répondre aux exigences de sécurité et de volumétrie de la statistique publique.
Il repose sur une orchestration de conteneurs sous Kubernetes et une gestion optimisée du stockage objet. Onyxia, sous licence MIT, incarne une solution souveraine qui permet la manipulation de données et qui garantit la reproductibilité des analyses à une échelle industrielle.
La stratégie open source répond ici à un impératif économique de gestion du « footprint » éditeur, en l’occurrence SAS, dont les serveurs ont été décommissionnés fin décembre 2025. Le recours à Onyxia permet à l’institut de s’affranchir des hausses tarifaires, qui oscillent fréquemment entre 10 % et 20 % lors des renégociations.
Onyxia ne se positionne pas comme une plateforme « tout-en-un » monolithique, mais comme une interface graphique. Sa couche d’abstraction est conçue pour masquer la complexité de Kubernetes aux data scientists qui ne maîtrisent pas le code.
À l’Insee, sa fonction est de simplifier le déploiement d’environnements de datalab, tels que Jupyter ou VS Code.