pathdoc - stock.adobe.com
Stellantis en route pour les Data Products
Le groupe Stellantis a engagé une transformation pour rationaliser son écosystème Data, héritage complexe de technologies hétérogènes. En standardisant, le groupe automobile pose les fondations d’une stratégie qui vise à créer des Data Products enrichis par l’IA.
Au lendemain de sa création, Stellantis héritait d’un paysage IT fragmenté. La diversité des systèmes IT et des outils de traitement de données représentait alors un frein à l’efficacité et à la cohérence globale de la nouvelle entité. Mais depuis 2022, Stellantis s’efforce de simplifier cet existant pour converger vers une stack unifiée. Et standardiser ainsi ses opérations.
Une architecture multi-instance et multi-cloud
La standardisation a consisté à remplacer une mosaïque d’outils ETL – des solutions sur site comme IBM DataStage et des services cloud variés comme Apache Sqoop EMR ou Azure Data Factory – par une architecture plus cohérente et centralisée.
La nouvelle stack technologique s’articule autour de trois piliers. Au cœur, Snowflake, la plateforme de données centrale, qui sert de socle pour l’ensemble du groupe. S’y ajoutent le duo dbt et dlt, adopté entre 2023 et 2024 pour orchestrer l’ensemble des transformations de données et capitaliser sur un framework plus moderne.
Au niveau de la restitution des données et des utilisateurs finaux, Stellantis a fait le choix de PowerBI pour sa visualisation des données. Une décision dans la continuité de son partenariat avec Microsoft et de l’utilisation généralisée d’Office 365 au sein de l’entreprise.
L’orientation vers une standardisation marquée jetait les bases d’une plateforme Data homogène et prête à être déployée à l’échelle. Le défi n’était pas mince pour Stellantis.
L’architecture retenue pour une organisation mondiale de la taille du groupe automobile devait permettre un équilibre entre une gouvernance centrale et une agilité locale pour s’adapter aux spécificités régionales et des métiers.
Une structure hybride pour un géant international
L’architecture de Stellantis se compose d’une instance centrale de convergence nommée « Global Snowflake ». Sa fonction est « d’harmoniser tout ce qui est Data model venant de toutes les régions », explique François Dessables, Data Architect chez Stellantis.
L’instance globale est complétée par un réseau de 13 instances satellites, dédiées à des régions spécifiques comme l’Amérique du Nord, ou à des filiales ayant des besoins particuliers, comme la « partie banque », « Maserati Customer Care » ou « Leapmotor ».
L’ensemble s’appuie sur une stratégie multi-cloud assumée. L’infrastructure est déployée de manière « identique, que ce soit sur Azure en Europe ou Amazon sur l’Amérique du Nord ». Stellantis entend ainsi favoriser une « compétition saine entre les deux cloud providers » et garantir une expérience totalement agnostique pour les utilisateurs finaux.
L’envergure de cet environnement est considérable. Le volume de données est de l’ordre du pétaoctet, hébergé au sein des tables Snowflake, avec plus de 500 warehouses actifs et plus de 60 000 pipelines de données. Ce chiffre, cité en octobre, est sans doute d’ailleurs déjà dépassé au vu du rythme de croissance des données dans le groupe.
Mais l’architecture n’a pas seulement pour objectif de traiter des gros volumes et d’harmoniser. Elle offre aussi une flexibilité opérationnelle pour les entités locales, souligne Wang Chen, Lead Data Engineer au sein du groupe.
Au cœur du réacteur, le framework de traitement et les couches logiques
La colonne vertébrale de la nouvelle plateforme est un framework de traitement de données standardisé, pensé pour industrialiser, sécuriser et rationaliser les flux de données à travers les différentes couches de l’architecture.
Ce framework repose donc sur l’association de dlt (Data Load Tool) et de dbt (Data Build Tool), chacun remplissant une fonction bien définie. dlt gère l’extraction et le chargement des fichiers sources vers la landing zone cloud. Puis dbt prend le relais. Il exécute d’abord la commande « copy into » pour ingérer les données dans Snowflake. Il orchestre ensuite l’ensemble des transformations successives entre les différentes couches logiques.
Le traitement des données dans Snowflake est en effet structuré en couches. La Landing Zone assure la réception pour la réplication brute. Le Standard Layer est la couche où les données brutes sont stockées. Le format Iceberg y est favorisé pour faciliter le partage avec les plateformes de Machine Learning externes. Vient ensuite la Target Layer, le vrai cœur de l’harmonisation. C’est ici que les modèles de données des différentes sources sont unifiés. Enfin, intervient la Business Layer, la couche finale. C’est ici que sont construits les « Data Products », prêts à être consommés par les équipes métier.
Aux outils propriétaires de Snowflake s’ajoute de l’open source, pour lesquels Stellantis revendique une approche pragmatique et prudente. Si Iceberg est utilisé dans la Standard Layer pour son interopérabilité, le groupe privilégie délibérément les tables internes Snowflake pour les couches Target et Business. Un choix motivé par la recherche de performances optimales et la volonté de bénéficier du modèle de sécurité robuste et natif de la plateforme Snowflake pour ses Data Products les plus critiques.
Le modèle de la « Core Team » pour industrialiser
Le succès d’une telle plateforme ne repose pas que sur la technique, préviennent les deux experts IT de Stellantis. Un modèle organisationnel capable d’imposer un standard et de reprendre le contrôle est aussi nécessaire.
Le groupe auto a donc mis en place une « core team » centrale, pour masquer la complexité de l’infrastructure, mais surtout pour maîtriser son destin technologique. Ce modèle a été une réponse pensée pour remédier à la dépendance vis-à-vis de frameworks développés et contrôlés par des partenaires ESN « qui se goinfraient un petit peu » (sic).
La « core team » est responsable de l’infrastructure, de la gouvernance et des standards de développement. Elle fournit un framework « clé en main », imposée désormais par Stellantis à tous ses fournisseurs. De cette manière, l’entreprise entend les contraindre à se concentrer sur la livraison de valeur métier plutôt que sur la construction d’infrastructures propriétaires.
Autres objectifs, selon François Dessables : « simplifier la vie des développeurs et maîtriser l’ensemble du cycle de vie applicatif. »
Le succès de cette approche serait quantifiable. Wang Chen partage quelques chiffres : 132 projets en production, 15 nouveaux projets par mois, 16 000 modèles dbt développés, plus de 100 développeurs actifs par mois, et une moyenne de 3 000 pull requests par mois.
Pragmatique sur la qualité et l’observabilité
Pour Stellantis, ingérer des données à grande échelle n’est qu’une première étape. Garantir leur qualité et superviser la santé des pipelines est la priorité absolue. Pour cela, l’entreprise combine une solution de supervision interne avec les nouvelles fonctionnalités de sa plateforme Data pour assurer une fiabilité de bout en bout.
Une solution d’observabilité « 360 degrés » a été construite sur Elastic Stack. Faute de budget, Stellantis a capitalisé sur une compétence interne pour la bâtir à moindre coût. Aujourd’hui, elle supervise l’ensemble de la plateforme (dlt, dbt, Airflow, Kubernetes) bien au-delà de Snowflake pour une vue complète et unifiée des opérations.
Stallentis a également recours aux Data Matrix Functions (DMF) de Snowflake. Wang Chen fait une distinction entre les tests dbt – une « validation binaire » (« passe/ne passe pas ») intégrée au pipeline, et les DMF qui relèvent au contraire de la « vérification en dehors » du pipeline. Ces dernières permettent de monitorer l’évolution d’une métrique de qualité dans le temps.
Stellantis a donc décidé d’utiliser « les deux » approches pour une couverture maximale. Supervision globale économique et contrôles qualité de données granulaires et continus permettraient ainsi une maîtrise complète de la santé et de la fiabilité des pipelines de données.
Vers des « Data Products » augmentés par l’IA
Grâce à sa plateforme, l’équipe IT de Stellantis espère disposer d’un tremplin vers une nouvelle ère de valorisation de la donnée. La vision à long terme est centrée sur le concept de « Data Product » et sur des modes d’interaction simplifiés grâce à l’IA.
L’ambition est de créer une « marketplace » interne de Data Products et d’associer à chacun d’eux un « score de Data Quality ». L’information, présentée directement aux consommateurs, doit garantir la transparence et renforcer la confiance dans les données mises à disposition.
L’intelligence artificielle occupe aussi une place centrale dans ce modèle, notamment grâce à des fonctionnalités comme « Cortex Analyst », et aux agents conversationnels. L’objectif ici est de permettre aux utilisateurs de « consommer en langage naturel » les données.
En prototypant des agents directement dans Snowflake, l’équipe prévoit à terme de les publier sur une « agents marketplace » plus large. Cette démarche – espèrent les experts de Stellantis – créera un nouveau lien, vertueux, entre la qualité des données, le Data Product et une interaction simplifiée par l’IA.
Propos recueillis lors du World Tour Paris de Snowflake en octobre
Pour approfondir sur Big Data et Data lake
-
Machine learning : à l’ère de l’IA agentique, Snowflake termine (enfin) ses fondations
-
Longchamp renforce les coutures de sa gestion de données
-
« Nous ne prévoyons pas de bâtir notre propre moteur analytique » (Tristan Handy, dbt Labs)
-
Ingestion, transformation, streaming : Snowflake accélère le rythme
