Bien qu’Hadoop soit né d’une initiative open source, c’est principalement à travers de distributions commerciales et propriétaires que les entreprises l’ont adopté.

Or, le marché s’est fortement contracté. En 2019, MapR se vendait à HPE, qui a renommé la distribution HPE Ezmeral Data Fabric. La même année, Cloudera et Hortonworks officialisaient leur fusion, dévoilée en 2018.

Cette deuxième opération avait mené à la réunion des fondamentaux d’Hortonworks Data Platform (HDP) et de Cloudera Data Hub (CDH), dans une seule plateforme, l’actuelle Cloudera Data Platform (CDP).

Cloudera avait promis de maintenir les deux éditions existantes tout en encourageant ses clients à passer sur la mouture réunifiée. Une stratégie qui n’a pas forcément convaincu les utilisateurs de HDP. Justement, ils avaient choisi HortonWorks pour sa distribution accessible librement, malgré le fait qu’elle soit réservée aux usages non critiques.

Trunk Data Platform, une alternative à Cloudera Data Platform

C’est le cas d’EDF et de la Direction générale des Finances publiques (DGFIP). Or, en décembre 2021, Cloudera a mis fin à ce dispositif, dans le but d’inciter – voire de contraindre – les migrations vers sa propre plateforme.

En 2020, EDF a revu la maîtrise du cycle de vie de ses clusters Hadoop. L’objectif était de rester open source et repousser la prochaine mise à jour à 2023. En 2021, elle a contractualisé un support pour HDP 2.6.5, et lancé un appel pour le support d’une version d’Hadoop open source.

Du côté de la DGFIP, il avait été décidé d’opter pour la version 3.1.4 de HDP, désormais obsolète. « Nous sentions vraiment ce manque d’autonomie et de souveraineté parce qu’il n’y avait aucune maîtrise sur le futur de HDP et il y avait un écart important entre HDP et CDP », résume Mohamed Mehdi Ben Aissa, Architecte Data & Cloud chez DGFIP.

C’est pour ces raisons que les deux entités, par le biais de l’association TOSIT, ont lancé officiellement en avril 2022 une nouvelle distribution open source d’Hadoop (sous licence Apache V2) utilisable en production. Elle est présentée sous le nom de Trunk Data Platform (TDP).

« Nous n’étions pas en mesure de suivre le rythme de l’éditeur, de faire des montées de version tous les deux ans », justifie Édouard Rousseau, Big Data Lead chez EDF.

Établi sur HDP, le projet a donné lieu à des premiers livrables en décembre 2021. Pour effectuer ce portage, EDF et la DGFIP se sont rapprochées d’Adaltas, une société de consultance spécialisée en gestion de données et en développement.

Les deux entités ont présenté en détail le projet. Outre les fondamentaux Hadoop (reposant sur HDFS, YARN et MapReduce), TDP comprend des versions d’Apache Hive, Zookeeper, Spark 2 et 3, Solr, Tez, Hbase, et Phoenix. Pour la sécurité, les instigateurs du projet s’appuient sur Apache Ranger et Knox, deux projets eux aussi associés au monde Hadoop, en sus de Kerberos.

Pour déployer la plateforme, les contributeurs ont orchestré le remplacement d’Ambari – « trop fortement lié à HDP » – par TDP Manager, une console qui s’appuie sur les éléments d’automatisation de la configuration d’Ansible.

Pour l’instant, seuls huit contributeurs participent activement aux projets, principalement des ingénieurs en provenance d’EDF, de la DGFIP et d’Adaltas. Lors de Big Data AI Paris, les intervenants ont appelé à la participation des entreprises présentes qui seraient dans la même situation.

Linagora, un spécialiste de l’open source, s’était lancé dans un projet similaire, mais avait annoncé dès la fin du mois d’avril qu’il contribuerait à TDP.

La plupart des membres du TOSIT, une structure de promotion de l’open source, sont des grands groupes français. Outre, EDF et la DGFIP, RTE, le groupe BPCE, l’OCDE et l’assurance maladie « ont rejoint récemment l’aventure », dixit Édouard Rousseau.

Certains d’entre eux, dont la BPCE et la Société Générale, ont opté pour la plateforme de Cloudera. Toutefois, TDP pourrait servir aux utilisateurs de TDP pour assurer des backups sans payer les licences imposées par l’éditeur.

La feuille de route de TDP inclut une possible incubation dans la fondation Apache. « C’est une cible que nous aimerions atteindre », affirme le leader Big Data chez EDF.

« Les gens disent qu’Hadoop est mort. En réalité, il est toujours en place chez les grands comptes : il y a des centaines d’applications qui s’appuient sur la technologie. Il faut donc le maintenir en vie ». Edouard RousseauBig Data Lead, EDF

« Les gens disent qu’Hadoop est mort. En réalité, il est toujours en place chez les grands comptes : il y a des centaines d’applications qui s’appuient sur la technologie. Il faut donc le maintenir en vie », ajoute-t-il.

« Aujourd’hui, Hadoop est principalement utilisé par ceux qui n’ont pas souhaité basculer dans le cloud public », précise la documentation de TDP.