Cet article fait partie de notre guide: Les stratégies clés autour du Data Mesh

BI : la Branche Services Courrier Colis de La Poste change le moteur, pas la carrosserie

La branche Services Courrier Colis de La Poste a finalement décidé de migrer progressivement ses systèmes de BI opérationnelle vers le cloud. Accompagnée par Capgemini, l’entité a choisi Snowflake, mais ne souhaitait pas, en tout cas pas dans un premier temps, changer sa plateforme Business Objects et bouleverser les habitudes de ses 5 000 utilisateurs.

La branche Services Courrier Colis (BSCC) de La Poste est l’une des entités les plus impactées par la transformation du groupe. En 2021, le groupe a lancé un plan stratégique intitulé « La Poste 2030, engagée pour vous ».

« Nous vivons une baisse structurelle du courrier. Nous avons expédié six milliards de plis cette année, contre 18 milliards en 2008 », justifiait Éric Brun, directeur Programme Data Branche Services Courrier Colis chez La Poste, lors du Snowflake World Tour au début du mois d’octobre 2023 à Paris.

En revanche, le volume de colis a fortement augmenté. « Nous sommes également en train de mettre en place de nouveaux services comme le portage de médicaments et tout ce qui concerne le portage à domicile ».

Ce plan tient sur sept piliers, à savoir : la satisfaction client et la qualité de service, la multiplication des points de présence, la transformation écologique, l’agilité organisationnelle, l’ambition d’être une entreprise à mission, la croissance internationale, et la transformation numérique.

Une transformation IT continue chez La Poste

Pour assurer la qualité de services, la BSCC a déployé un système d’information événementiel. « Ce SI événementiel nous permet de suivre chaque pli, de son entrée dans le réseau par un dépôt pour les entreprises ou les particuliers, en passant par son traitement dans un centre de tri pour finalement arriver dans la besace du facteur », relate Éric Brun.

Cette récolte de données n’est pas vaine pour le groupe. « L’enjeu, c’était d’avoir un accès de référence autour de ces données structurées, qualifiées, maîtrisées pour délivrer des indicateurs clés de performance standards pour toutes nos filières », poursuit-il.

« C’est très important. Nous avons beaucoup de BU, des directeurs de BU par offre. Nous avons une unité responsable de la qualité de services et qui est en contact avec l’Arcep. Nous avons aussi un enjeu de mettre d’accord toutes les BU d’accord sur des indicateurs, une définition, un calcul et de déployer les KPI pour tous les utilisateurs », affirme Éric Brun.

Ces données ne doivent pas non plus être dédupliquées. Les responsables de données au sein de la BSCC doivent aussi préparer des produits à valeur ajoutée, par exemple de l’analyse de qualité de services.

En sus de ses enjeux métier, la direction du programme Data de la BSCC doit faire avec les contraintes du SI. Elle avait déjà refondu sa plateforme BI et consolidé ses entrepôts de données vers SAP BW/4HANA et Cloudera sur site entre 2017 et 2021. À la fin du projet, se posait déjà la question d’un déport sur le cloud alors que le système permettait déjà de traiter 10 milliards d’événements par mois sur les périodes de pics.

Le FinOps comme sacerdoce

Or cette infrastructure ne pouvait suivre l’évolution du SI événementiel qui enregistre près de 80 milliards d’événements supplémentaires par an, soit quelque 40 téraoctets de données annuels. De plus, le coût du stockage était déjà un problème à la fin de l’année 2020.

Le passage au cloud devenait inévitable, selon Éric Brun. « Il y a des enjeux de connectivité avec les briques existantes. Le FinOps est omniprésent dès la mise en place : avoir la bonne valeur pour le produit par rapport à la valeur pour le terrain », liste-t-il. « Il faut aussi faire avec le time to market, disposer d’un système élastique capable de supporter des pics de charge importants sur des périodes courtes et de revenir à un cycle nominal, par exemple pendant la période estivale où il y a moins d’enjeux ». Les équipes en interne devaient aussi monter en compétences.  

De plus, les données sont actualisées environ toutes les 15 minutes (en « pseudo temps réel ») et doivent être accessibles par 5 000 utilisateurs. « En fonction du cycle de vie à six heures du matin, nous avons d’énormes pics de connexion et cela se lisse au cours de la journée », évoque Éric Brun.

La BSCC a fait appel à Capgemini pour adapter son architecture de données à ce paradigme. Après une identification des usages et une projection des coûts, les équipes de l’ESN ont lancé le projet. « Très rapidement, au bout de deux mois, nous avons posé une architecture et des briques de plateforme. Nous avons un asset chez Capgemini qui nous a permis de créer la plateforme à l’aide de composants d’infrastructure as code et des connecteurs pour collecter les données en temps réel », assure Arnaud Rover, CTO Office France et Lead Data Architect Snowflake chez Capgemini.

Cette méthode et ces outils ont permis de déployer un MVP prenant en compte les données émises par des topics Apache Kafka. La BSCC a « standardisé des ontologies en faisant en sorte que l’ensemble des applications publient des événements dans Kafka à destination des autres applications », relate Arnaud Rover.

Snowflake, le réceptacle de données d’une architecture événementielle

 Conseillée par Capgemini, la BSCC a choisi d’envoyer ces données vers des instances Snowflake.

« Nous avions cet existant sur lequel nous avions travaillé pendant deux ans. En quatre mois, nous avons réussi à porter tous les traitements sur Snowflake et à reproduire les rapports à l’identique », déclare Julien Sabatier, responsable du socle Connaissance 360 chez La Poste. « Il fallait pouvoir prouver que la solution fonctionne. Nous avons effectué des tests de montée en charge sur ces reportings : en moyenne, nous avons constaté que nous étions deux fois plus rapides que HANA », poursuit-il.

Ce MVP, qui a rapidement fait ses preuves, a directement été mis à contribution pour développer des cas d’usage consacrés à la qualité de services. « En quatre mois, nos équipes ont été totalement autonomes en partie grâce au framework délivré par Capgemini, à la facilité de développement qu’offre Snowflake et à l’expertise interne sur Kafka et le SQL », signale Julien Sabatier.

C’était l’occasion de mettre en place des capacités de visualisation et d’analytique en libre-service. « Nous ne pouvions plus stocker de données fines, cela nous coûtait trop cher dans notre système SAP et nous avions atteint certaines limites en ce qui concerne la montée en charge », rappelle le responsable du socle Connaissance 360.

Pour maîtriser les coûts dans le cloud, Arnaud Rover a développé un package dédié à l’outil ETL/ELT dbt. L’expert de Snowflake s’est appuyé sur la brique Streams du « Data Cloud » pour reproduire le mécanisme de matérialisation incrémentale de dbt, qui, en lui-même, n’est pas performant à l’échelle. L’idée est de s’assurer que seules les nouvelles données événementielles soient transformées en utilisant des mécanismes SQL.

« Sur le volet industriel, nous avons apporté un framework nommé DLK qui a permis d’ingérer des données, qu’elles proviennent de fichiers, d’API ou de topics Kafka, de les contrôler, de suivre leur statut et d’orchestrer les pipelines », poursuit le CTO Office France chez Capgemini.

Capgemini a également proposé une « calculette » afin de prévoir les coûts d’usage des cas d’usage présents et futurs.

« Nous sommes désormais capables d’estimer nos coûts, de les contrôler et de communiquer sur cet indicateur, contrairement aux TCO de systèmes legacy qui peuvent coûter de l’argent même s’ils ne sont pas exploités », remarque Éric Brun.

Après six mois de travaux en octobre 2023, Capgemini accompagnait la BSCC dans ce qu’il appelle la phase « Scale Up » du projet. « Maintenant, nous multiplions les projets en parallèle dans l’idée de diffuser la logique de self-service chez La Poste », indique Arnaud Rover.

Le libre-service comme voie d’adoption de l’approche Data Mesh

Les responsables du projet ont identifié trois « personas » : le citizen data analyst, l’advanced data analyst et le data scientist.

Pour l’heure, deux de ces profils bénéficient de ce projet.

« Le premier profil correspond à des gens, qui, sans compétences SQL, explorent les données afin de régler des problématiques de qualité de services. Le deuxième profil correspond à des employés ayant déjà des compétences “data” à qui l’on ouvre des bacs à sable », distingue Arnaud Rover.

Si certaines entreprises cherchent d’abord à implanter une approche Data Mesh, la division de La Poste tire profit de « la structure décentralisée de Snowflake », pour mettre en place cette logique.

Les métiers accèdent à des produits de données à travers des domaines métiers en libre-service. Ils consomment plus particulièrement des agrégats de données ou des jeux de données préparés afin de générer des rapports ou des tableaux de bord. L’option de partage de données et les mécanismes de gestion de rôles du data warehouse cloud permettent de « sécuriser » la dimension self-service du projet et d’entamer l’adoption du concept Data Mesh par étape.

Pas de « big bang » : Business Objects demeure (pour l’instant) l’outil BI de référence

Pour autant, du point de vue de la visualisation, la BSCC ne voulait pas faire vivre un « big bang » à ses métiers.

« Nous ne voulions pas tout cumuler. C’est un sujet sensible », signale Éric Brun. « Nous avons mené une politique “zéro changement”. La puissance de la solution n’est pas dans l’outil de restitution », juge-t-il.

Historiquement, la division de La Poste a principalement mis dans les mains de ses métiers Business Objects. La plateforme BI existante de l’éditeur est en fin de vie, mais les usagers y sont habitués.

« La visualisation de données fines, mais très volumineuses était quelque chose d’attendu depuis au moins un an chez les métiers. [...] Cela fonctionne : en matière de performance, c’est une réussite. »
Julien SabatierResponsable du socle Connaissance 360, La Poste

« Même avec les milliers d’utilisateurs, l’architecture multicluster et scale-out de Snowflake tient la charge sans souci », vante Arnaud Rover.

« La visualisation de données fines, mais très volumineuses était quelque chose d’attendu depuis au moins un an chez les métiers », affirme Julien Sabatier. « Nous sommes en train de le déployer. Cela fonctionne : en matière de performance, c’est une réussite ».

Si les données sont volumineuses et les utilisateurs nombreux, les requêtes, elles, sont simples. Les warehouses Snowflake sont généralement de petites tailles, selon Arnaud Rover.

De ce point de vue là, le responsable du socle Connaissance 360 estime qu’il y a des optimisations à opérer afin de prendre en charge des volumes de données toujours plus importants. Julien Sabatier ne s’inquiète pas outre mesure. « Dès que nous avons un changement à effectuer, nous l’appliquons sur tous les flux en place ».

Les équipes « data » de la BSCC sont habituées à la BI et aux ETL qui ciblent des bases de données relationnelles historiques, dont Oracle, Sybase ou encore SAP HANA. « En à peine deux mois, les équipes internes étaient autonomes », affirme Julien Sabatier. « Elles développent environ quatre fois plus rapidement que sur SAP ».

Éric Brun, lui, espère l’enrichissement des rapports, la multiplication des cas d’usage et davantage de projets de data science. « Nous avons tous les prérequis pour créer des produits de données à valeur ajoutée et les piliers sont là », estime-t-il.

Pour autant, le fait de conserver Business Objects (SAP BI) était un choix effectué « en fonction des contrats existants ». Plusieurs options sont sur la table pour remplacer l’outil historique de visualisation de données. La BSCC étudie la possibilité de déployer Tableau ou Power BI. « Ce pivot n’est pas encore généralisé, mais nous voulions préparer la suite. D’où l’importance du FinOps. C’est un premier virage concernant un sujet critique qui réclame l’adhésion des métiers », insiste Éric Brun.

Pour approfondir sur Outils décisionnels et analytiques

Close