Open Data et IA : la SNCF prend son billet pour MCP
Comment mieux valoriser ses données ? Pour ce faire, le groupe ferroviaire espère bien s’appuyer sur un serveur MCP. Un premier projet vise à rendre l’accès à l’information voyageur simple et intuitive, grâce aux grands modèles de langage.
Le groupe SNCF structure et ouvre l’accès à son immense patrimoine de données depuis un certain temps déjà. Afin de répondre aux besoins variés de ses entités, ses équipes ont bâti une stratégie globale reposant sur trois approches distinctes, mais complémentaires.
Pour consommer la donnée SNCF, plusieurs voies sont donc possibles. Elles sont empruntables par des publics différents – avec des besoins et des niveaux de confiance variés. La première, c’est l’open data, majoritairement axée vers le grand public.
Open Data, Data Sharing et API pour faire circuler la donnée
En la matière, l’entreprise dispose d’une plateforme dédiée. Y sont mis à disposition 180 jeux de données pour un total de 20 000 utilisateurs mensuels. Le service génère en outre plus de 2 millions de requêtes API par mois.
Quatre entités du groupe contribuent à alimenter les jeux de données : la holding SNCF, SNCF Réseau, SNCF Voyageurs et Gares & Connexions. Parmi les jeux de données les plus populaires figurent les disponibilités TGV Max, les horaires des trains, mais aussi des informations plus spécifiques comme la localisation des passages à niveau (intégrée dans des applications grand public comme Waze).
Pour les données plus sensibles et partagées sous condition avec des écosystèmes de confiance, la SNCF pratique le « Data Sharing ». Avec les espaces de données, dont Eona-X, le groupe collabore avec une fédération d’acteurs (mobilité, logistique et tourisme).
Financé par un modèle mixte public privé (BPI France 2030 et cotisations des membres), le data space s’appuie sur des connecteurs sécurisés et des « smart contracts », détaille Bertrand Billoud, responsable des plateformes open data de la SNCF. Ces technologies ont pour but de garantir la confiance dans les échanges de données.
Les filiales SNCF consommatrices de l’open data groupe
Avec son API, l’entreprise commercialise également une offre premium auprès des développeurs, pour des usages plus industriels. L’API SNCF nécessite l’obtention d’un token. Elle est associée à une formule gratuite incluant jusqu’à 5 000 requêtes par mois.
Au-delà, un modèle B2B payant s’applique. En contrepartie, la SNCF intègre un support dédié et une boîte à outils complète, incluant le Navitia Playground, destiné à faciliter la prise en main par les développeurs.
Avec ces trois approches, le groupe valorise ses données à l’externe. Ces outils sont également exploités pour servir des besoins internes au groupe. Pour offrir une nouvelle fonctionnalité à ses clients TGV Max, l’application SNCF Connect consomme le jeu de données open data le plus populaire de la plateforme.
En récupérant les nouvelles offres publiées chaque matin entre 5 h et 6 h, elle a pu développer une notification push permettant aux utilisateurs de réserver en un clic des billets à bas prix. L’entité Gares & Connexions consomme également les données ouvertes maison.
Là, il s’agit de réduire la consommation énergétique de 10 %. Pour tenir cet objectif, les équipes ont croisé des données open data (Météo France, validations de titres de transport d’Île-de-France Mobilités) avec des données internes (fréquentation des gares, horaires d’ouverture, etc.).
Cela lui a offert la possibilité de bâtir un outil décisionnel interne permettant d’identifier précisément où et quand agir pour optimiser la consommation des bâtiments, que ce soit en baissant le chauffage ou en éteignant l’éclairage.
Ces optimisations, basées sur l’exploitation intelligente de la donnée existante, pavent la voie à la prochaine étape d’innovation de la SNCF : l’intégration de l’IA conversationnelle au cœur de l’expérience client.
MCP chez SNCF Voyageurs pour repenser l’interaction client
Comme l’expliquait Christophe Huchon, de la direction de l’innovation de TGV-IC lors du salon Data IA de Nantes, les grands modèles de langage (LLM) actuels, malgré leur puissance, souffrent d’une limite fondamentale.
Ils sont déconnectés du « monde réel » et incapables d’effectuer des actions concrètes par eux-mêmes. Tenter de les connecter directement à une multitude d’outils via leurs API respectives conduit rapidement à un « sac de nœuds » technique, dont les coûts et les délais d’intégration freinent les usages.
La solution à ce problème pourrait venir de MCP, le Model Context Protocol. Proposé par la société Anthropic en novembre 2024 et rapidement adopté par des géants comme Google et OpenAI, ce protocole ouvert vise à standardiser la communication entre les LLM et les outils externes.
Selon Christophe Huchon, MCP présente de multiples avantages, dont l’amélioration de l’expérience utilisateur du fait de la capacité fournie aux IA de réaliser des actions. Le protocole est aussi synonyme de standardisation. En clair, il constitue un langage commun et ainsi un moyen de simplifier les développements.
Le responsable projet Innovation chez SNCF Voyageurs insiste, en outre, sur la facilité d’intégration (« connecter un nouvel outil devient beaucoup plus simple ») et sa nature open source, censée assurer évolutivité et rapidité d’adoption.
Christophe Huchon rappelle cependant que le protocole reste encore jeune, nécessitant dès lors rigueur et vigilance sur le plan de la sécurité IT. Mais les enjeux SSI n’ont pas vocation à bloquer toute initiative.
Pour SNCF Voyageurs, MCP offre l’opportunité de diffuser une information voyageur conversationnelle. Le projet de l’entreprise vise ainsi à utiliser cette technologie, pour créer un serveur MCP permettant aux utilisateurs d’interroger les services de la SNCF en langage naturel, y compris via des requêtes vocales.
Du prototype à la production en axant sur l’open data
Dès février 2025, les premiers serveurs MCP ont commencé à émerger. Dans un premier temps, le projet de la SNCF se limite aux données issues de l’Open Data.
Une requête sur les prix ne permet pas d’obtenir un chiffre précis, mais seulement une fourchette tarifaire. L’intégration des prix en temps réel est bien prévue néanmoins, mais ultérieurement. L’entreprise se veut prudente et pragmatique.
Loin de se lancer tête baissée, la SNCF revendique une approche structurée et itérative pour ce projet d’innovation. Elle a notamment noué une collaboration académique avant d’initier une montée en puissance en interne.
La phase 1 a consisté à lancer une expérimentation avec Centrale Supélec. Une V0 a été bâtie en sept semaines, avec le concours des étudiants de l’école d’ingénieurs. Le périmètre était volontairement limité aux données TGV.
Pour des raisons de sécurité, le serveur se connecte uniquement à l’Open Data et à l’API SNCF, en évitant les API de distribution, jugées beaucoup plus sensibles. Ce principe a persisté pour la phase 2 et la V1 du serveur MCP.
À cette étape, une équipe interne, composée de deux profils fonctionnels et d’un technicien, prenait le relais pendant 3 mois. Il s’agissait ici de consolider le prototype et de le faire évoluer vers une V1. Cette phase a permis de refactoriser le code, d’optimiser les interfaces et, surtout, d’intégrer les prompts vocaux, une avancée pour l’expérience utilisateur.
Un lancement légèrement retardé
Après une phase de finalisation, encore en cours lors du salon Data de Nantes (16 septembre) et de la présentation de SNCF Voyageurs, le lancement public du serveur MCP était prévu pour octobre 2025. Il semble avoir été retardé, mais reste en bonne voie. Pour l’entreprise, la finalité du projet va bien au-delà de la simple recherche d’horaires et de prix.
L’objectif est d’offrir une expérience d’information voyageur complète, personnalisée et proactive, expliquent les deux porte-parole du groupe de transport. Avec MCP, c’est un pivot business qui est recherché.
Le virage consiste à transformer une relation client transactionnelle, basée sur des formulaires, en une interaction conversationnelle et intelligente. Cette transformation reste à écrire. D’autres jalons sont à franchir d’ici là.
La feuille de route est définie. La priorité sera d’élargir le périmètre des données pour inclure l’ensemble de la grande vitesse, puis tous les trains du groupe (TER, Transilien). Le défi majeur consistera ensuite à intégrer de « vraies données », notamment les prix en temps réel.
Cela nécessitera de se connecter aux API de distribution, ce qui soulève d’importants enjeux contractuels et de sécurité. La qualité des données pourrait constituer un autre défi. Bertrand Billoud rappelle que si les données de l’API sont de qualité « plutôt industrielle », celles de l’Open Data peuvent présenter des complexités.
C’est notamment le cas des tarifs TER, qui sont fixés par chaque région. À cela s’ajoute le risque d’hallucinations de la part des IA elles-mêmes. L’entraînement des modèles devra par conséquent faire l’objet d’un travail continu pour garantir la pertinence et la fiabilité des réponses.
