Dossier : l’ère des plateformes de données
Introduction
Data Lake, Data warehouse, Lakehouse. Il y a bien des distinctions entre ces trois notions technico-marketing. Mais avec le cloud, les frontières tendent à s’effacer. Tout est une plateforme.
Des plateformes qui, de l’extérieur, ont des allures de couteaux suisses. Stockage de données en tout genre, ingestion, transformation, analytique, machine learning, IA, BI, gouvernance, exposition de données, applications… Les fournisseurs veulent cocher toutes les cases.
À ce jeu, deux acteurs s’affrontent frontalement : Databricks et Snowflake. Mais, alors que leurs offres avaient perdu de leur superbe, voilà que les éditeurs existants et les hyperscalers se rappellent aux entreprises. Les deux enfants bruyants d’Hadoop et d’Oracle n’ont-ils pas finalement reproduit le modèle qu’ils décriaient un temps ? « Nous sommes un peu le Linux des hyperscalers », défend Benoît Dageville, cofondateur et président du produit Snowflake. « Nous portons notre système dédié au traitement de données sur l’infrastructure des différents hyperscalers ». Un discours que pourrait tenir Databricks. « Malgré leur volonté d’unifier leurs offres, les fournisseurs cloud proposent plutôt un patchwork de solutions qui ne sont pas conçues pour travailler de concert », ajoute-t-il.
Eux qui venaient du traitement Big Data et de l’analytique, les voilà à proposer une base de données transactionnelle : PostgreSQL. Pourquoi maintenant ? Au nom de l’IA, répondent Databricks et Snowflake. Pour attirer les déçus d’Oracle, de SQL Server et les nombreux développeurs familiers de cette technologie. Pour briser le plafond de verre de la croissance, devraient-ils affirmer.
Le sujet de tension de l’année dernière – autour du format de tables de données – tend à se tasser. Tous les acteurs cités dans ce guide essentiel adoptent Apache Iceberg à différentes échelles. Le sujet du catalogue de métadonnées demeure un point d’attention. Trois technologies émergent à la surface : le projet Apache Polaris poussé par Snowflake, Unity Catalog de Databricks et l’API REST Catalog du projet Iceberg lui-même (quand elle est couplée à Apache Hive). Évidemment, chacun jouera des arguments techniques : vitesse d’interrogation, compression des données, meilleures utilisations des fonctionnalités du format, etc. Non loin, des acteurs comme Qlik et Fivetran entendent proposer leurs propres services de stockage managés pour héberger des tables Iceberg.
Oui, mais l’IA ? Dans les faits, Databricks, Snowflake, Teradata, Cloudera, Starburst, Google Cloud, AWS, Microsoft Azure et les autres viennent de lancer leur suite d’IA agentique. Tout cela est peu nouveau pour tout le monde, même pour ces acteurs. Une conviction ressort cependant. « La couche sémantique est très importante », souligne Benoît Dageville. « Autrefois dans la tête des experts métiers, elle devient partie intégrante de la plateforme de données. C’est le prix à payer pour l’automatisation et permettre aux LLM d’interagir directement avec les données sans intervention humaine, tout en créant des agents spécialisés qui peuvent être contrôlés efficacement ».
Unification des charges de travail, IA générative et agentique au cœur de la plateforme de données, émergence ou retour des compétiteurs de Snowflake et Databricks, voilà les sujets abordés tout au long des articles qui composent ce guide essentiel.
1Databricks et Snowflake-
La course à l’armement sur les fonctions « cœur »
Openflow : Snowflake veut unifier l’ingestion des données structurées et non structurées
Avec son service basé sur Apache NiFi, Snowflake compte unifier l’ingestion de données structurées et non structurées. Vers sa plateforme ou non. Les clients sont enthousiastes, Futurum Group attend des preuves. Lire la suite
Databricks aiguise ses outils de migration, d’ingestion et de transformation de données
Lors de sa conférence annuelle Data+AI Summit, Databricks a présenté ses fonctionnalités censées simplifier la migration et l’ingestion de données vers sa plateforme. Malgré les paillettes de l’IA, les entrepôts de données et l’analytique sont au centre de son activité. Lire la suite
PostgreSQL « serverless » : Databricks s’apprête à acquérir Neon
Avec Neon, Databricks ambitionne de réunir des capacités analytiques, IA/ML et opérationnelles au sein de sa plateforme. Un « coup d’éclat » face à Snowflake et un défi lancé aux hyperscalers, selon un analyste. Lire la suite
Comme Databricks, Snowflake acquiert un spécialiste de PostgreSQL
Le spécialiste du data warehousing cloud ne fait pas de mystère sur ses ambitions : proposer une offre réunissant des capacités analytiques et transactionnelles. Outre le fait de poursuivre le bras de fer avec Databricks, Snowflake entend prendre des parts de marché aux hyperscalers. Lire la suite
2IA générative et agentique -
Suivre le rythme insufflé par OpenAI et Anthropic
IA : Starburst veut rattraper Databricks et Snowflake
Le spécialiste de la fédération de données tente d’élargir son périmètre au-delà du data mesh et d’égaler ses concurrents sur le volet de l’IA générative et agentique. À ce jour, il présente une vision convaincante, qu’il faudra concrétiser. Lire la suite
SingleStore prépare sa base de données à la montée en charge de l’IA
SingleStore emprunte les mêmes voies que Databricks et Snowflake. Bien qu’il puisse déjà jouer sur son atout translytique, ses rivaux ont une feuille de route IA un peu plus avancée. L’éditeur californien compte bien rattraper son retard cette année. Lire la suite
IA agentique : Snowflake y va doucement, mais sûrement
Lors de sa conférence annuelle, le spécialiste du data warehousing cloud a principalement mis en avant ses fonctions liées à l’IA générative et agentique. Malgré les questionnements et une forme d’urgence de la part des entreprises, Snowflake conserve son rythme de croisière en annonçant, comme à son habitude, des services en préversion. Lire la suite
Agent Bricks : Databricks optimise les assistants IA… grâce à l’IA
Les dirigeants de Databricks l’ont déjà dit : ils sont « nuls » pour trouver des noms de produits. Agent Bricks n’est donc pas à proprement parlé un outil pour créer des agents, mais il doit automatiser l’amélioration des résultats et accélérer les déploiements des assistants IA. Lire la suite
3« IA souveraine »-
Les « anciens » jouent la carte hybride
Au nom de l’IA, Cloudera affûte sa stratégie hybride
Face à Snowflake et Databricks, Cloudera tente de maintenir une parité fonctionnelle en s’appuyant sur des projets open source et des partenaires, dont Nvidia et Red Hat. Sa carte maîtresse ? L’hybridité de son offre. Lire la suite
IA privée et « souveraine » : Teradata lance AI Factory
Pour les entreprises préoccupées par le contrôle des coûts du cloud et la souveraineté des données, la nouvelle plateforme du fournisseur de longue date promet aux utilisateurs de construire des outils d’IA avancés au sein de leurs propres systèmes. Lire la suite
4Fournisseurs cloud-
Le « come-back » des hyperscalers, les acteurs français s’équipent
BigQuery : les efforts de GCP pour ne pas se faire distancer
Alors que Microsoft et AWS ont réussi à faire comprendre au marché qu’ils pouvaient égaler fonctionnellement Snowflake et Databricks, Google Cloud, parti le premier, tente de respecter sa promesse d’unification de ses services analytiques faite il y a trois ans. Lire la suite
AWS lance la brique manquante pour unifier l’analytique et l’IA dans SageMaker
AWS souhaitait rattraper fonctionnellement les offres de Snowflake, de Databricks et de ses concurrents Google Cloud et Microsoft Azure. Il lance enfin en disponibilité générale la couche pour unifier l’analytique et l’IA dans SageMaker. Lire la suite
Avec sa « Data Platform », OVHcloud se frotte à Big Query, Microsoft Fabric et Snowflake
La nouvelle « Data Platform » d’OVHcloud se présente comme une solution unifiée pour orchestrer l’ensemble du cycle de vie des données, de la collecte au déploiement de modèles d’intelligence artificielle. Le tout dans un cloud souverain. Lire la suite
Scaleway bâtira sa Data PaaS souveraine sur les fondations de Saagie
Le groupe Iliad a annoncé l’acquisition de Saagie, un acteur clé de la mouvance DataOps, par sa filiale cloud Scaleway. Partageant la même philosophie technique, les deux sociétés prévoient de lancer une offre souveraine « rapidement ». Lire la suite