IA, Lakehouse : SAP rachète Prior Labs et Dremio, mais doit convaincre
SAP a annoncé son intention d’acquérir deux éditeurs : Prior Labs et Dremio. Prior Labs devrait lui permettre d’appliquer les bénéfices techniques des LLM à la prédiction de données structurées, tandis que Dremio complète son architecture de données multicloud et hybride. Toutefois, SAP devra convaincre les clients d’investir dans l’IA tabulaire et clarifier le rôle de Dremio au sein de l’offre Business Data Cloud, estiment les analystes.
Du fait de la nécessaire approbation par les autorités financières, l’éditeur allemand se réserve le droit de ne pas commenter les montants engagés pour chacun des rachats. L’acquisition de Prior Labs est prévue au deuxième ou au troisième trimestre, tandis que celui de Dremio sera normalement clôturé au troisième trimestre 2026.
Cela dit, les dirigeants de SAP sont plutôt clairs concernant leurs intentions. Prior Labs est une startup berlinoise fondée en 2024. Elle entraîne des modèles de fondation consacrés aux prédictions à partir de données structurées. Son modèle open weight phare se nomme TabPFN. Il a été téléchargé plus de 3 millions de fois.
Comme le rappelle Philipp Herzig, CTO de SAP, Prior Labs est conseillé scientifiquement par Bernhard Schölkopf, directeur de l’institut Max-Planck pour les systèmes intelligents et Yann Le Cun, cofondateur d’AMI Labs et ex-directeur scientifique chez Meta. Elle était, entre autres, soutenue financièrement par Hans-Werner Hector, cofondateur de SAP.
L’acquisition de Prior Labs, une toute petite surprise
SAP s’est appuyé sur l’architecture mise au point par le laboratoire pour entraîner RPT-1 (à prononcer « rapid one »). Le projet a été présenté en novembre dernier, lors du TechEd 2025, et a suggéré un certain enthousiasme. Une deuxième collection de modèles sera annoncée lors de Sapphire 2026.
« Les LLM ont encore beaucoup de mal à être efficaces pour la prédiction de la demande et de la planification, ou encore de l’attrition », rappelle Philipp Herzig, lors d’un point avec les analystes et la presse. « Or, les modèles de machine learning ont besoin d’être entraînés par tâche spécifique ».
Ici, il s’agit d’apporter le même niveau de généralisation des résultats qu’avec les grands modèles de langage, sans réentraîner de bout en bout les algorithmes. Bon nombre de projets chez les clients de SAP ont jusqu’alors réclamé l’intervention de tiers spécialistes du ML et des domaines visés.
Non seulement Prior Labs restera une société indépendante pour garder sa vélocité, mais SAP y investira 1 milliard d’euros sur quatre ans pour en faire un laboratoire d’envergure dans ce domaine en Europe. Certains modèles seront commercialisés par SAP à travers SAP AI Cloud et Business Data Cloud, tandis que d’autres resteront open weight.
« Ce que nous voulons, c’est accélérer considérablement notre feuille de route et nos ambitions en matière d’IA tabulaire », martèle le CTO de SAP. « L’avantage, c’est que dans l’univers SAP, nous disposons de centaines de milliers de tables dans l’ERP et ailleurs, ce qui permet d’en tirer immédiatement parti ».
Les modèles de Prior Labs seront également mis en musique à travers les fonctions agentiques de Joule, l’assistant IA de SAP. L’assistant fera appel aux modèles de type RPT-1 pour prédire des résultats sans réentraînement.
Selon les analystes chez BARC US, cette technologie est « encore jeune ». Il reste cependant à prouver son efficacité en production face aux systèmes AutoML et aux modèles de machine learning. De même, les LLM peuvent aider à accélérer la génération de pipelines ML, tandis que l’attention des entreprises serait concentrée sur l’IA agentique.
Le projet de rachat de Dremio salué par les acteurs du marché
Si Prior Labs représente un pari à long terme sur l’IA tabulaire, l’acquisition de Dremio offre à SAP des bénéfices immédiats et tangibles dans l’architecture de données.
L’éditeur américain fondé en 2015 à Santa Clara multiplie les casquettes. À la manière de Starburst, c’est un spécialiste de la fédération de données et l’éditeur d’un lakehouse open source. C’est aussi le cocréateur d’Apache Arrow, le protocole colonnaire in-memory à la base du principe de « zero copy », l’un des contributeurs principaux du fameux format de tables open source Apache Iceberg et du projet de catalogue de métadonnées Apache Polaris.
« [Le rachat de Dremio par SAP] est un nouveau signe en provenance de l’écosystème qu’Apache Iceberg et désormais Apache Polaris sont les moteurs de l’interopérabilité ouverte pour l’entreprise agentique », commente James Rowland-Jones, directeur de la gestion produit chez Snowflake, auparavant vice-président produit chez Dremio et Confluent.
Techniquement, Dremio a largement inspiré ou amélioré les concepts qui animent des acteurs comme Snowflake ou Databricks. Dernièrement, il a commencé à revoir son Lakehouse pour l’IA agentique. En revanche, commercialement, Dremio n’a pas su se distinguer de Snowflake, Databricks ou Starburst, malgré les qualités indéniables de ses logiciels.
« Au fil des années, Dremio a développé un très bon produit de requête et de fédération de données, mais a eu du mal à trouver une adoption large sur un marché très concurrentiel », confirme Roy Hasson, directeur produit sénior chez Microsoft.
Et c’est une aubaine pour SAP. L’éditeur allemand a vu ses grands clients abandonner ses produits de gestion de données et analytiques pour migrer leurs données vers Snowflake, Databricks ou BigQuery. D’autres clients n’ont pas fait le grand saut et conservent des déploiements de SAP BW ou de BW4/HANA.
Tous ses clients sont amenés à croiser des données SAP et « non SAP », ce qui reste parfois difficile pour des raisons techniques et contractuelles.
D’où le choix de SAP de multiplier des partenariats avec Databricks, Snowflake, AWS et GCP dans le cadre de l’offre SAP Business Data Cloud.
SAP veut compléter la modernisation de son architecture de données
« Avec l’arrivée de Dremio, nous sommes désormais en mesure de nous concentrer pleinement sur l’architecture moderne du lakehouse », commente Irfan Khan, président et chief product officer Data & Analytics chez SAP.
Il s’agit en premier lieu de poursuivre les efforts d’adoption du format de tables Iceberg et de standardiser l’implémentation du catalogue de métadonnées Polaris. La capacité de fédération de données devra faciliter l’accès aux données présentes dans des bases SQL Server, Oracle, SAP BW, BW4HANA et les déclinaisons d’HANA sur site.
En outre, note Irfan Khan, Dremio complète les capacités in-memory d’HANA. « Apache Arrow s’appuie également sur une architecture en colonne en mémoire et utilise le concept de réflexion pour pouvoir matérialiser les données à la volée », souligne-t-il. Les données pourront rester où elles sont et être consommables à la demande par les applications. Avec le catalogue Polaris intégré à la couche sémantique SAP Knowledge Graph, l’objectif est de constituer des produits de données de référence. Ils seront gouvernés à l’aide du MDM Reltio, bouclant ainsi la boucle.
« Dans un premier temps, nous allons intégrer Dremio de manière que son moteur puisse communiquer avec la base de données HANA à travers des requêtes SQL », ajoute Philipp Herzig. « Dremio pourra alors être capable de décomposer cette requête SQL pour la répartir, avec un mécanisme de “pushdown”, entre tous les lacs de données connectés, puis de renvoyer le résultat via la base de données HANA », poursuit-il. « Ensuite, étape par étape, nous intégrerons les moteurs pour rendre le système encore plus performant ».
Autre utilité, l’accélération des migrations des entrepôts de données SAP sur site vers SAP BDC. « Cela peut même permettre de réduire davantage le coût total de possession (TCO) pour les très grands parcs BW qui, par nature, doivent s’appuyer sur une conception et une architecture de type “lakehouse” modernes », affirme Irfan Khan. « Cela dit, si vous souhaitez vraiment vous contenter d’un modèle de persistance fonctionnant sur votre propre lac de données, il vous suffit de choisir un espace de stockage objet en cloud », poursuit-il en insistant sur la notion de choix.
Mais BDC ne répond pas explicitement aux exigences des clients souhaitant conserver leurs données sur site ou dans des clouds souverains.
C’est à l’aide du même mécanisme de fédération que SAP pourrait simplifier le travail de fédérations pour les données sensibles et confidentielles. « Quand l’acquisition sera effective, nous aurons la possibilité d’apporter les mêmes principes architecturaux aux clients des secteurs hautement régulés et qui adoptent nos offres On site et Sovereign Cloud », anticipe le CTO de SAP.
Pour l’heure, les efforts seront concentrés sur SAP BDC et HANA Cloud, mais Dremio peut déjà permettre ce cas d’usage. Enfin, l’éditeur pourra participer de plus près aux projets Arrow, Iceberg et Polaris. Databricks a fait de même en acquérant Tabular Data.
Et les dirigeants de Dremio d’insister qu’ils « redoublent d’efforts pour concrétiser leur vision de l’IA agentique ».
Constellation Research espère une clarification de l’offre Business Data Cloud
Holger Mueller, analyste chez Constellation Research, considère les rachats bienvenus. Mais il suggère à SAP de clarifier son offre. « Il y a quatorze mois, SAP n’avait pas de lakehouse, aujourd’hui il y a presque trop d’options », a-t-il lancé auprès des dirigeants cités plus haut.
« Les clients SAP auraient pu tout mettre en place avec Databricks, le partenaire de choix pour Business Data Cloud (BDC) », écrit-il sur le site de Constellation Research. « Aujourd’hui, la confusion règne davantage. Il a fallu environ un an à SAP pour proposer l’outil en libre-service Data Studio (s’il est effectivement lancé lors de la conférence Sapphire) », poursuit-il. « Les clients souhaitent pouvoir exploiter immédiatement, dès la mise en place, les données transactionnelles des éditeurs d’ERP ainsi que les données tierces dans leur data lakehouse de base ».
Ce n’est pas forcément le cas en Europe. Bon nombre d’entreprises utilisent deux ou trois plateformes de type lakehouse, sans compter les efforts de fédération déjà en place. Et Databricks et SAP n’avaient pas les capacités nécessaires pour fédérer toutes les données des entreprises.
Philipp Herzig a répondu que l’événement Sapphire sera le moment de clarifier l’architecture et l’offre.
Une ouverture unidirectionnelle ?
Pour Mickael Ni, un autre analyste chez Constellation Research, Dremio « permet à SAP d’accéder à des données distribuées et à des infrastructures lakehouse ouvertes ». Reltio lui apporte « une vision fiable des entités métiers clés » et Prior Labs, une « forme d’AutoML amélioré ». Tout cela lui permettrait d’apporter le « contexte des processus là où les décisions sont prises ».
« SAP devra démontrer que Dremio fonctionne véritablement de manière bidirectionnelle. »
AnalystesBARC US
SAP n’est pas le seul à unifier des architectures de gestion de données. Salesforce a acquis Informatica pour ajouter des capacités d’intégration de données et un MDM à sa plateforme. Fivetran a « fusionné » avec dbt Labs pour proposer une plateforme d’intégration unifiée. L’année dernière, Qlik a acquis et infusé Upsolver dans son offre.
« La question stratégique pour les clients est de savoir si SAP peut rendre cela suffisamment ouvert pour des entreprises hétérogènes, tout en tirant parti de la profondeur des processus qui rend SAP particulièrement précieux », ajoute Mickael Ni.
De fait, SAP est plutôt reconnu pour restreindre l’accès aux données stockées et traitées sur ses plateformes. Outre son conflit avec Celonis, en février, l’éditeur a introduit plusieurs restrictions concernant l’extraction de données et l’utilisation de certains connecteurs, notamment pour matérialiser et distribuer des produits de données vers des produits tiers. « Les formats ouverts servent à partager des données et non à les restreindre, déclare Shivaram Kashyap, lead architect analytique financier chez le groupe Scania, indécis.
« SAP devra démontrer que Dremio fonctionne véritablement de manière bidirectionnelle », écrivent les analystes de BARC US. « Le risque : qu’il devienne principalement une couche d’entrée, acheminant des données non SAP vers SAP, plutôt qu’une passerelle ouverte permettant aux systèmes externes d’interroger à leur tour les données SAP ».