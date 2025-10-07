L’association TOSIT est une structure de soutien à l’open source fondée par EDF, Enedis, Orange, France Travail et SNCF. En sus d’attirer un plus grand nombre de membres associés (dans les ministères, dans les entreprises, dont Dassault Aviation), elle poursuit le développement de ses deux projets phares TDP et OKDP.

Pour mémoire, TDP (Trunk Data Platform) est une distribution open source d’Hadoop sur une base proche d’HortonWorks Data Platform 3.1.5. OKDP (Open Kubernetes Data Platform), en revanche, est une suite de composants open source (moteurs de stockage, de traitement, d’outils de gestion de données, d’IA et d’analytique) reposant sur Kubernetes.

La TDP de plus en plus déployée en production Le Big Data Paris 2025 était l’occasion d’apprendre que la plateforme TDP sera mise à jour au cours du quatrième trimestre 2025. La V2 apportera la prise en charge Apache Hadoop 3.3.6, HBase 2.5.1, Spark 3.5.6, Hive 4.0, Phoenix 5.2.1, Zookeeper 3.8.4, Ranger 2.6.0, Knox 2.0, Tez 0.10.4 et de Kerberos. Une API REST permettra également de simplifier le déploiement de ces modules. Le boostrap de clusters TDP en production, la gestion des configurations, l'hôte par hôte, les montées au plan, le rolling start font partie des évolutions de la Lib TDP. Les membres du TOSIT semblent surtout fiers de pouvoir lister les déploiements de l’alternative à Cloudera. « Nous sommes très contents d’avoir des mises en production chez RTE, EDF et l’OCDE », déclare Mohamed Mehdi Ben Aissa, architecte de données et cloud à la Direction générale des Finances publiques (DGFIP). « La DGFIP va passer la TDP en production très prochainement, tout comme la SNCF. Arkea et Orange l’adoptent également », liste-t-il lors du Big Data Paris 2025. Par ailleurs, la société bordelaise Euler Data Solutions embarque la TDP dans une solution payante. « TDP est une stack 100 % gratuite. Cela n’empêche pas les entreprises de l’intégrer dans leur solution et de s’appuyer dessus pour gagner de l’argent », rappelle l’architecte.

Fiabiliser les traitements Spark sur Kubernetes OKDP semble bénéficier d’une actualisation plus régulière de la part de son contributeur principal, la DGFIP. « Nous bénéficions d’une vingtaine de téléchargements par semaine et de contributions internationales », affirme-t-il. OKDP peut être déployé sur la plupart des distributions de Kubernetes : la version « vanilla », Rancher Kubernetes Engine (RKE), Nubo, AKS, EKS, ou encore GKE. Au cours de l’année 2024, OKDP a intégré des notebooks JupyterHub, le moteur de traitement Apache Spark, l’outil de visualisation Superset et une sandbox afin de tester les déploiements de ces différentes briques sur une machine ou en local. Depuis, les contributeurs ont fini d’intégrer le métastore Hive et une brique d’authentification Oauth2/OpenID Connect pour Spark. « Aujourd’hui, nous nous concentrons principalement sur Trino et Spark pour les traitements », indique Mohamed Mehdi Ben Aissa. « Cette année, nous avons continué le travail en proposant un opérateur Spark. Nous avons lancé OKDP server et OKDP UI qui doivent permettre de déployer de manière automatique les composants associés depuis une interface utilisateur », liste l’architecte de données et cloud chez la DGFIP. Le TOSIT prévoit toujours d’intégrer le framework de data science Onyxia et KubeFlow/MLFlow dans la plateforme. « Nous sommes en train d’intégrer Apache Iceberg et le catalogue Polaris », ajoute Mohamed Mehdi Ben Aissa. Il sera également possible de traiter des données en provenance de PostgreSQL et depuis MinIO. D’autres composants déjà évoqués par le passé demeurent inscrits sur la feuille de route. Par exemple, Apache Airflow a été sélectionné pour l’automatisation et la gestion des flux de travail complexes. Il y a toutefois quelques nouveautés à signaler sur la feuille de route. D’une part, notons un effort sur la gestion centralisée des accès et de la sécurité. D’autre part, la gestion des ressources de stockage de calcul et de stockage. L’intégration au catalogue Unity OSS et la mise en place d’un système d’observabilité (logs, audit) sont aussi envisagées à plus long terme.