lightpoet - stock.adobe.com

Data Mesh, IA générative : les nouveaux moteurs de La Centrale

Le groupe La Centrale a fait sienne l’approche Data Mesh. Plus qu’une forme organisationnelle, l’entreprise a adapté son architecture technique en conséquence. Une discipline qui favorise désormais le développement de projets d’IA générative.

Plus de 9 millions de visiteurs uniques par mois. C’est une statistique phare pour La Centrale, un site Web-plateforme dédié à l’achat et à la vente de véhicules d’occasion. « Nous sommes plus une startup, nous avons 55 ans », s’amuse Thomas Berger, CTO de La Centrale. Le groupe ayant commencé par les petites annonces papier (à travers le journal la centrale des particuliers) a réussi à se hisser à la première place de son secteur. « À la fin des années 2000, nous avons arrêté la partie papier et nous sommes devenus un pure-player numérique », indique le directeur technique.

Il dispose de sa propre régie publicitaire pour La Centrale (Drivemedia) et possède le média Caradisiac, un site Web qui mêle actualités et forums dédiés à l’automobile. « Aujourd’hui, nous sommes une entreprise “tech et data”. Toute la valeur que nous arrivons à extraire est liée à notre capacité à analyser, traiter et exposer des données », assure Thomas Berger. « Nous ne vendons pas de voitures sur La Centrale, nous mettons en relation des acheteurs et des vendeurs ». Ce 30 juin, La Centrale liste plus de 368 000 annonces.

Rassemblement des informations techniques sur les modèles de véhicule, positionnement du prix du véhicule sur le marché, indicateurs pour l’aide à la gestion de stock, rachat par des professionnels, mesures antifraudes, etc. La Centrale s’appuie sur de nombreux flux de transformations de données et de pipelines de machine learning.

Environ 80 % des annonces postées sur La Centrale le sont par des professionnels. Eux paient pour publier des annonces, tandis que les particuliers bénéficient de la gratuité du service.

« Pour les professionnels, nous avons développé beaucoup d’outils de compréhension du marché, les évolutions sur tel modèle, telle région, etc. », ajoute Thomas Berger. « Nous les aidons à mettre en avant leurs annonces, à fixer un prix, parce que même pour un professionnel, c’est difficile d’estimer un véhicule d’occasion : c’est un produit unique par essence ».

Au-delà du jeu de mots bien senti, c’est une réalité. Quand certaines petites voitures populaires ne décotent pas, d’autres – de l’entrée de gamme jusqu’au bolide d’exception – perdent énormément de valeur en peu de temps. L’adhésion populaire à un modèle (et l’affection que portent les influenceurs automobiles) peuvent changer la donne.

Le choix du cloud et des microservices

Pour traiter ces enjeux, une centaine de personnes sur les 250 collaborateurs de l’entreprise sont des membres du pôle « tech ». L’ensemble des projets sont menés sur le cloud par des « feature teams ». « Nous avons fait le choix d’AWS il y a presque 15 ans. Nous sommes passés sur le cloud pour une raison assez simple : le petit data center que nous avions dans nos locaux a subi une inondation. Nous avons compris que conserver nos données dans notre immeuble pouvait mettre en péril l’entreprise », raconte Thomas Berger.

 Les équipes de La Centrale ont transité de serveurs vers des services IaaS puis vers les solutions managées d’AWS. « J’ai une conviction, c’est que mes équipes, elles sont là pour créer de la valeur, pas pour faire de la maintenance », insiste le CTO. « Les services managés nous permettent actuellement de déployer plus d’une centaine de versions de la plateforme par mois ».

La plateforme La Centrale repose aujourd'hui sur environ 200 microservices. « Nous avons divisé tout cela en applications et nous nous sommes organisés pour automatiser les mises à jour et les déploiements ». Deux fois par an, La Centrale organise ce que son directeur technique appelle un « Simulation Day ». « Nous déployons la plateforme de zéro afin de préparer en cas d’incident majeur, dans l’éventualité d’une perte complète d’accès au site ou d’une attaque majeure », ajoute le responsable technique. « Nous sommes désormais capables de remonter tous nos applicatifs en une douzaine d’heures, contre une vingtaine de jours auparavant ».

Un véritable Data Mesh

En lien avec cette architecture de microservices subdivisée en applicatifs, La Centrale a mis en place une approche Data Mesh. « Nous avons largement décentralisé notre Data Lake – à 75 % environ – pour créer des data warehouses et des data products », assure Thomas Berger. « Notre organisation repose sur une segmentation par domaines de données, chaque domaine étant associé à une feature team responsable de ses propres produits de données ».

Le CTO et ses pairs souhaitaient ne pas recourir à une équipe data centralisée afin d’éviter d’en faire « un goulet d’étranglement ». « Chaque équipe est à la fois productrice et consommatrice de données, ce qui favorise l’autonomie et l’efficacité », juge-t-il.

Cette approche doit permettre de remplir trois objectifs principaux : la supervision de l’activité de La Centrale (mesure de la génération de leads sur une période donnée), la prise de décision « data-driven » et la création de nouveaux produits de données.

« En développant des Data Products, nous suivons leur évolution et prenons des décisions pour optimiser les cas d’usage et les activités principales », avance Thomas Berger. « Par exemple, en analysant le volume de recherches enregistrées, nous pouvons évaluer l’engagement des utilisateurs sur le site. Si nous modifions la couleur d’un bouton ou simplifions une fonctionnalité, nous pouvons mesurer l’impact sur le nombre de recherches enregistrées et, in fine, sur la génération de leads, notre objectif final ».

La création de nouveaux produits de données serait étroitement liée à l’intelligence artificielle et au machine learning. « En développant un produit de données qui regroupe toutes les recherches effectuées par nos utilisateurs, nous pouvons identifier les tendances du marché, comme les véhicules les plus recherchés », explique le directeur technique. Ces informations auraient un impact sur des décisions stratégiques pour les garages et les concessionnaires. « Ils peuvent se servir de cette information pour ajuster le prix de vente ».

Pour créer ses produits de données, La Centrale a mis au point des « Cloud Development Kits ». « Ces kits sont intégrés dans chacune de nos applications. Au départ, la création d’un Data Product nécessitait une dizaine de jours. Aujourd’hui, grâce à l’automatisation et à la simplification de la chaîne, ce délai a été réduit à environ une journée et demie pour un nouvel applicatif », compare le CTO.

À la fin du mois d’avril, quatre équipes étaient dédiées à la création de produits de données. Toutes embarquaient au moins un data scientist.

L’une d’entre elles se consacre à la lutte contre la fraude. « Nous avons développé des algorithmes capables d’analyser chaque message ou annonce et d’attribuer un pourcentage de risque de fraude », déclare Thomas Berger.

Les équipes sont responsables de leurs produits de données. Ils sont catalogués et accessibles à toutes les autres équipes. Cela doit favoriser la création de nouveaux data products à partir des solutions existantes. Plusieurs dizaines de data products sont maintenus de cette manière.

Les pipelines de machine learning ont été développés à façon en s’appuyant sur Amazon SageMaker. « Nous avons développé beaucoup de choses en interne, mais nous sommes en train de regarder si certaines d’entre elles ne sont pas redondantes avec SageMaker Unified Studio », informe le CTO.

Évidemment, comme beaucoup d’entreprises, La Centrale s’est mise à l’IA générative et l’agentique. Le directeur technique en veut pour preuve deux projets.

Un assistant IA pour guider les internautes dans leur recherche de véhicule

« Nous avons démarré assez tôt, notre premier projet est sorti en juin 2024 », renseigne Thomas Berger. « Nous avons conçu un assistant qui permet d’aller rechercher des véhicules et des conseils basés sur nos données à partir de requêtes en langage naturel ».

Le projet est parti d’une étude menée en collaboration avec Kantar. « Résultat, 67 % des personnes interrogées avaient du mal à trouver un véhicule. Il est vrai : quand l’on n’est pas un spécialiste ou un passionné d’automobile, savoir quel est le modèle est le plus adapté à ses besoins n’est pas évident », relate Thomas Berger.

Au lieu de partir d’une marque et d’un type de véhicule (SUV, berline, citadine, etc.), l’assistant IA part des intentions de l’utilisateur (budget, nombre de passagers, durée des trajets, type de voyage, etc.).

L’assistant a d’abord été conçu sur la base d’un LLM OpenAI et des appels de fonction pour manipuler les quelque 400 critères/filtres de recherche différents du moteur de La Centrale.

Les couacs des débuts (hors production) ont été résolus à force de prompt engineering. « Nous enregistrons environ 20 000 conversations par mois. C’est une manne d’information pour comprendre les intentions de nos usagers ».

À la fin du mois d’avril, c’était Amazon Nova, un LLM à bas coût, et Bedrock qui propulsaient le service. « Le premier modèle que nous utilisions coûtait très cher », considère le CTO. « C’est l’une des raisons pour lesquelles notre assistant est présenté en bas de page de notre page d’accueil. Depuis, nous avons divisé les coûts par 100 en utilisant un modèle plus petit ».

La stack technique développée autour de Bedrock par le groupe vise à favoriser le changement de LLM en moins de dix jours. « Nous avons un catalogue de plus de 500 prompts créés en collaboration avec les journalistes de Caradisiac pour évaluer les réponses des modèles d’IA sur des questions précises. Nous effectuons des tests automatiquement à l’aide d’un LLM qui analyse les réponses ».

De l’appel de fonctions, La Centrale passe aux standards MCP (Model Context Protocol). « Notre cœur de métier, c’est de libeller des objets, de classer des données ». Il s’agira toujours d’appeler les filtres du moteur de recherche du site, mais aussi de le combiner avec une approche « multiRAG ».

« Nous avons un avantage important avec Caradisiac : nous avons beaucoup de données constructeur, des tests de véhicules effectués avec une éthique journalistique, les avis des propriétaires, les fiches de fiabilités, etc. », explique Thomas Berger. « Pour autant, nous avons besoin d’une approche multiRAG et de filtres pour éviter les hallucinations. Quand il y a beaucoup de documents – plusieurs dizaines de milliers –, les vecteurs commencent à être très proches. C’est d’autant plus un enjeu dans le monde de l’automobile où les nommages sont très proches ». L’objectif est d’obtenir un « moteur de recherche IA » performant.

AIrton, l’assistant IA interne et portail vers des agents IA

En interne, l’assistant IA du groupe La Centrale s’appelle AIrton, en hommage au pilote de formule 1 Ayrton Senna. « J’ai fait interdire l’accès aux chatbots externes pour respecter nos règles de sécurité et de confidentialité, mais je n’aime pas bloquer sans proposer de solution », indique le CTO. Ce chatbot interne développé à partir du framework OpenWebUI permet justement aux métiers de traiter des données internes (mais non sensibles, comme les informations financières), en s’appuyant sur plusieurs modèles du marché disponibles depuis Amazon Bedrock (Claude 3.7, Nova Pro, Nova Lite, etc.).

Des « champions » ont été identifiés dans chaque service métier, puis formés afin de collecter les besoins, diffuser les bonnes pratiques et améliorer progressivement les outils. Ces métiers appétents peuvent suggérer la conception d’agents IA pour automatiser des tâches comme la relecture de contrats ou de création de produits de données. À l’occasion, MCP sera mis à contribution. « MCP permet d’industrialiser les appels de fonction », résume Thomas Berger.

« Nous allons créer plusieurs petits agents IA pour améliorer la productivité interne. De leur côté, nos équipes de développeurs déploient Cursor et des modèles paramétrés pour respecter nos règles d’architecture et de sécurité », poursuit le directeur technique.

« Il faut beaucoup tester, apprendre et accepter les échecs, sans oublier d’enclencher les garde-fous », conseille-t-il. « Les échanges avec les équipes métier sont importants », comme la qualité des données et l’APIsation des systèmes d’information. « Sans cela, c’est beaucoup plus difficile », conclut-il.

Pour approfondir sur IA appliquée, GenAI, IA infusée