momius - Fotolia

OKDP : l’idée d’une plateforme « data » open source basée sur Kubernetes fait son chemin

Le TOSIT continue de pousser ses deux projets phares. La plateforme TDP, reposant sur Hadoop, est de plus en plus installée en production. Le projet OKDP, basé sur Kubernetes, pourrait tout aussi bien compléter l’écosystème Hadoop ou le remplacer.

L’association TOSIT est une structure de soutien à l’open source fondée par EDF, Enedis, Orange, France Travail et SNCF. En sus d’attirer un plus grand nombre de membres associés (dans les ministères, dans les entreprises, dont Dassault Aviation), elle poursuit le développement de ses deux projets phares TDP et OKDP.  

Pour mémoire, TDP (Trunk Data Platform) est une distribution open source d’Hadoop sur une base proche d’HortonWorks Data Platform 3.1.5. OKDP (Open Kubernetes Data Platform), en revanche, est une suite de composants open source (moteurs de stockage, de traitement, d’outils de gestion de données, d’IA et d’analytique) reposant sur Kubernetes.

La TDP de plus en plus déployée en production

Le Big Data Paris 2025 était l’occasion d’apprendre que la plateforme TDP sera mise à jour au cours du quatrième trimestre 2025. La V2 apportera la prise en charge Apache Hadoop 3.3.6, HBase 2.5.1, Spark 3.5.6, Hive 4.0, Phoenix 5.2.1, Zookeeper 3.8.4, Ranger 2.6.0, Knox 2.0, Tez 0.10.4 et de Kerberos. Une API REST permettra également de simplifier le déploiement de ces modules. Le boostrap de clusters TDP en production, la gestion des configurations, l’hôte par hôte, les montées au plan, le rolling start font partie des évolutions de la Lib TDP.

Les membres du TOSIT semblent surtout fiers de pouvoir lister les déploiements de l’alternative à Cloudera. « Nous sommes très contents d’avoir des mises en production chez RTE, EDF et l’OCDE », déclare Mohamed Mehdi Ben Aissa, architecte de données et cloud à la Direction générale des Finances publiques (DGFIP). « La DGFIP va passer la TDP en production très prochainement, tout comme la SNCF. Arkea et Orange l’adoptent également », liste-t-il lors du Big Data Paris 2025.

Par ailleurs, la société bordelaise Euler Data Solutions embarque la TDP dans une solution payante. « TDP est une stack 100 % gratuite. Cela n’empêche pas les entreprises de l’intégrer dans leur solution et de s’appuyer dessus pour gagner de l’argent », rappelle l’architecte.

Fiabiliser les traitements Spark sur Kubernetes

OKDP semble bénéficier d’une actualisation plus régulière de la part de son contributeur principal, la DGFIP. « Nous bénéficions d’une vingtaine de téléchargements par semaine et de contributions internationales », affirme-t-il.

OKDP peut être déployé sur la plupart des distributions de Kubernetes : la version « vanilla », Rancher Kubernetes Engine (RKE), Nubo, AKS, EKS, ou encore GKE.

Au cours de l’année 2024, OKDP a intégré des notebooks JupyterHub, le moteur de traitement Apache Spark, l’outil de visualisation Superset et une sandbox, afin de tester les déploiements de ces différentes briques sur une machine ou en local.

Depuis, les contributeurs ont fini d’intégrer le métastore Hive et une brique d’authentification Oauth2/OpenID Connect pour Spark.

« Aujourd’hui, nous nous concentrons principalement sur Trino et Spark pour les traitements », indique Mohamed Mehdi Ben Aissa.

« Cette année, nous avons continué le travail en proposant un opérateur Spark. Nous avons lancé OKDP server et OKDP UI qui doivent permettre de déployer de manière automatique les composants associés depuis une interface utilisateur », liste l’architecte de données et cloud chez la DGFIP.

Le TOSIT prévoit toujours d’intégrer le framework de data science Onyxia et KubeFlow/MLFlow dans la plateforme. « Nous sommes en train d’intégrer Apache Iceberg et le catalogue Polaris », ajoute Mohamed Mehdi Ben Aissa. Il sera également possible de traiter des données en provenance de PostgreSQL et depuis MinIO. D’autres composants déjà évoqués par le passé demeurent inscrits sur la feuille de route. Par exemple, Apache Airflow a été sélectionné pour l’automatisation et la gestion des flux de travail complexes.

Il y a toutefois quelques nouveautés à signaler sur la feuille de route. D’une part, notons un effort sur la gestion centralisée des accès et de la sécurité. D’autre part, la gestion des ressources de stockage de calcul et de stockage. L’intégration au catalogue Unity OSS et la mise en place d’un système d’observabilité (logs, audit) sont aussi envisagées à plus long terme.

Orange Innovation adopte OKDP pour éviter le « vendor lock-in »

« Vous n’êtes pas obligé de déployer toute la pile pour disposer d’un système fonctionnel », souligne Mohamed Mehdi Ben Aissa. « Tout est modulaire ». C’est l’approche choisie par Orange Innovation. L’entité de l’opérateur télécom est sans doute l’organisation la plus avancée dans son adoption de ce patchwork.

« Orange contribue à OKDP depuis un peu moins d’un an », précise Lionel Herbet, Product Owner chez Orange Innovation.

 « Le but est d’assurer une autonomie de notre SI en matière de gestion de données », explique-t-il. « Orange utilise les clouds publics, mais nous ne pouvons pas stocker toutes nos données sur ces infrastructures distantes. Nous avons besoin d’une solution en interne ».

« Peu importe le type de déploiement, nous avons les mêmes exigences de sécurité et de qualité. C’est ce que nous essayons de retranscrire dans OKDP », assure le product owner.

Il y a trois ans, Orange Innovation prévoyait de migrer d’Hadoop vers une plateforme Kubernetes « Data ». Avec la montée en cloud, les serveurs associés au lac Hadoop étaient de moins en moins utilisés.

« Nous avons essayé de déporter de grandes fonctions de Hadoop, de trouver des produits de remplacement sur Kubernetes », relate Lionel Herbet. « Cette plateforme a été mise en production d’abord en parallèle d’Hadoop. À notre grande surprise, il a été relativement simple d’interconnecter les deux mondes ».

Pendant un temps, Orange Innovation a orchestré des traitements depuis les moteurs de l’écosystème Hadoop sur un espace de stockage objet de type S3. Inversement, il était aussi aisé d’exécuter des traitements sur des données stockées dans HDFS depuis les moteurs gérés sur Kubernetes. Mohammed Mehdi Ben Aissa souligne que les entreprises peuvent s’arrêter à ce stade-là, sans forcément « tuer l’éléphant ».

 Orange Innovation, elle, a migré progressivement depuis Hadoop vers sa pile basée sur l’orchestrateur de conteneurs. Jusqu’à décommissionner l’ancienne plateforme. « La plus grande difficulté s’est jouée au niveau de l’ordonnancement. Depuis un an et demi, nous avons fermé notre plateforme Hadoop et nous utilisons exclusivement Kubernetes », note Lionel Herbet. Au lieu d’Apache Airflow, Orange a choisi le projet Argo Workflow.

Au sein du TOSIT, les ingénieurs d’Orange se sont rendu compte de l’intérêt pour le déport des moteurs de traitement de données sur Kubernetes. « La principale difficulté tient dans le fait de créer la colle qui va lier toutes ces briques », explique Lionel Herbet.

Chez Orange Innovation, il s’agissait de simplifier l’accès sécurisé à Spark et à Starburst (Trino). Ce qui a été fait en mettant en musique un connecteur OIDC, des éléments de configurations et des opérateurs K8s. Il a également fallu ajouter des notebooks Jupyter, prendre en charge des SDK, créer des interfaces pour certains usagers qui ne voulaient pas modifier des fichiers YAML. Les ingénieurs ont également déployé les moteurs Ray, Apache Flink et Superset.

Orange Innovation contribue à une partie du code qu’elle a écrit pour son déploiement. Puis, elle remplace ou remplacera des éléments par les briques OKDP que les ingénieurs considèrent comme fiables pour les usages du groupe.

« OKDP traite certains de ces aspects, mais pas tous. La sécurité demeure la responsabilité de l’entreprise qui l’utilise », souligne Lionel Herbet.

Les briques d’OKDP permettraient également de simplifier les migrations de « cloud interne » vers le cloud public. « Nous en avons fait l’expérience : nous avons migré en moins d’une semaine », assure le product owner.

« Le fait de participer à OKDP permet de faire valoir vos besoins, d’apporter votre spécificité et de bénéficier des éléments en provenance du monde de l’open source », note-t-il.

Pour approfondir sur Open Source