Agentic Data Cloud : Google Cloud tente de tisser sa toile chez ses concurrents
Au nom de l’IA, toujours, Google Cloud a annoncé Agentic Data Cloud. Les coutures de cette vision présentée lors de Google Cloud Next 26, à Las Vegas, sont encore grossières. Elle résulte d’un effort de repositionnement de l’architecture de données à l’ère agentique. À l’ère où Databricks et Snowflake ont imposé leur rythme dans ce domaine.
Plutôt qu’un produit clairement défini, il faut voir en Agentic Data Cloud une marque ombrelle pour rassembler plusieurs fonctionnalités, censées faciliter l’adoption de l’IA agentique à l’échelle de l’entreprise.
Plus précisément, il s’agit pour Google Cloud de mettre en lumière les adaptations en cours de son architecture de données qui devrait se mettre à l’heure de cette technologie incontournable, qu’on le veuille ou non.
Les trois composants principaux mis en avant sont Cross Cloud Lakehouse, Knowledge Catalog et Data Agent Kit.
Il ne faut pas s’y tromper. Derrière les jolis mots, l’objectif est d’abord de prendre des parts de marché à Databricks.
Le lancement de cross-cloud Lakehouse, seul « nouveau » produit de cette offre, s’inscrit dans le renommage de BigLake, une solution d’unification de datawarehouse et de lakehouse. Depuis le 20 avril, elle s’appelle Google Cloud Lakehouse.
Cross-cloud Lakehouse doit permettre d’interroger des données directement depuis BigQuery, des services managés Apache Spark, DataProc sans migration de données. La première intégration annoncée est faite avec Databricks.
Cross-cloud Lakehouse : un jeu à trois bandes entre Google Cloud, AWS et Databricks
Techniquement, Google Cloud s’appuie sur l’API REST Catalog d’Apache Iceberg pour se connecter à son Metastore Lakehouse (ex BigLake metastore), qui lui-même fédère les métadonnées issues de Unity Catalog, le catalogue de données aux formats ouverts de Databricks. Cela permet de découvrir les métadonnées avant d’interroger les tables Iceberg.
« Grâce à la fédération d’identité des charges de travail (OIDC) ou aux identifiants OAuth, Lakehouse procède à une authentification sécurisée sans avoir besoin de clés d’accès à long terme », précise la documentation de Google.
Les données ne transitent pas par l’internet public, mais par Cross-Cloud Interconnect (CCI), le service d’interconnexion privé de GCP. Pour l’instant, 26 régions cloud peuvent être interconnectées avec celles d’AWS en Europe, aux États-Unis et en Asie. Toutes ne sont pas équipées d’un « lien rapide ». Selon les porte-parole du groupe (présents sur les stands du salon), il est recommandé d’utiliser celles dotées de la connexion rapide afin d’éviter des latences plus importantes. Dans le meilleur des cas, Andi Gutmans, vice-président et directeur général Data Cloud chez Google Cloud, assure que la latence entre les régions de GCP et d’AWS est de moins 2 millisecondes.
La prise en charge d’autres Lakehouses est déjà au programme. Snowflake pourrait être pris en charge à travers son Horizon Catalog. S3 est utilisé par défaut, donc la connexion à AWS Glue semble l’étape la plus logique. Le géant n’a pas confirmé cette supposition. Mais les porte-parole interrogés par LeMagIT indiquent que les clients auront leur mot à dire. Par ailleurs, Apache Polaris, le projet open source qui propulse Snowflake Horizon, n’a pas été mentionné.
L’intérêt est bien d’étendre le service à un maximum de cloud. « C’est une demande des clients. Il y a un terrain favorable au multicloud », affirme Anthony Sirot, directeur EMEA chez GCP et dirigeant par intérim de la France, lors d’un point presse.
Ligthning Engine, l’outil conçu pour déboulonner Photon
Mais GCP a surtout mis en avant son service managé Apache Spark. Il a le droit à un nouveau moteur modestement intitulé Lightning Engine. Celui-ci serait quatre fois plus rapide qu’un Spark open source.
Le fournisseur combine les projets Apache Gluten, un middleware chargé de faire la liaison entre Spark et des moteurs natifs (qui ne s’appuie pas sur des JVM), et Velox, un moteur d’exécution vectorisé écrit en C++. Cette combinaison désormais commune (Microsoft Fabric, Acceldata, IBM ont fait le même choix) a été dans ce cas adaptée aux matériels de GCP. Lightning Engine inclut un optimisateur de requêtes, une meilleure gestion de la mémoire et des fonctions de compression pour les tables Delta et Iceberg.
« Lightning Engine a un rapport prix-performance deux fois supérieur à celui des services Spark à haute vitesse », affirme Andi Gutmans. Ici, le dirigeant évoque sans le citer Databricks qui, lui aussi, a opté pour un moteur C++ (Photon) en 2020.
« Si Lightning Engine offre des gains de performances significatifs, son impact concret varie en fonction de la charge de travail », préviennent les ingénieurs de Google. « Il est particulièrement adapté aux tâches à forte intensité de calcul qui exploitent les API Spark Dataframe et les requêtes Spark SQL, plutôt qu’aux opérations limitées par les I/O ».
Rapide ou non, ce moteur est à nouveau un prétexte pour vendre du temps de calcul et de la mémoire. Ne l’oublions pas.
GCP utilise un connecteur S3IO (une librairie Python ou Go) pour lire le contenu des fichiers Parquet stockés dans S3, sans les copier. BiQuery peut servir à lire les données traitées dans Managed Service for Spark.
Cross Cloud Lakehouse semble plutôt adapté à l’approche d’un Lakehouse ouvert, présenté il y a trois ans par GCP. C’est l’une des briques pensées pour établir un lakehouse logique multicloud, mais il est également possible d’utiliser les services de routage et ceux dotés du Lightning Engine pour accomplir la vision de Google. Là aussi, ses ingénieurs multiplient les options.
Knowledge Catalog : Dataplex fait (encore) peau neuve
Et les agents IA dans tout cela ? C’est là qu’interviennent Knowledge Catalog et Data Agent Kit, tous deux en préversion.
Data Agent Kit rassemble des extensions, des outils, des skills, etc., pour interagir avec les services Google (BigQuery, Spanner, AlloyDB, Cloud SQL, Looker) et les technologies tierces (Apache Spark, Airflow, dbt, etc.) depuis Gemini CLI, Codex, Claude Code, VS Code ou tout autre IDE agentique. Le kit inclut les skills des agents Data Engineering, Data Science et Database Observability. Remarquons que GCP ne s’aventure pas encore du côté de la mise en qualité des données, le terrain agentique préféré de Qlik et d’Informatica.
Chez Google Cloud, l’idée est de rendre actionnable l’ensemble des données des entreprises, qu’elles soient structurées ou non, à travers Google Cloud Lakehouse.
Outre les outils, les LLM qui propulsent les agents IA ont besoin de contexte. C’est le rôle de Knowledge Catalog. Il s’agit ni plus ni moins qu’une évolution de l’Universal Catalog (nom qui n’a pas tenu), plus connu sous l’appellation Dataplex. Mais là où Dataplex s’arrêtait à des fonctions d’exploration et de catalogage de métadonnées des services du fournisseur, Knowledge Catalog introduit ce que GCP a nommé le « Knowledge Engine ».
Selon Andi Gutmans, c’est un ensemble de fonctions agentiques, responsable de l’enrichissement des métadonnées à travers des labels, des mises en correspondance, à la mode graphe. Elles sont évidemment propulsées par un modèle Gemini. Ce contexte enrichi devrait aider les agents IA à générer des portions de code plus adaptées aux charges de travail des clients. Il s’agira d’unifier les métadonnées en provenance des services GCP, de ceux de ses concurrents et de ses partenaires (SAP, Workday, ServiceNow, Salesforce, Palantir, etc.).
Une couche sémantique qui ouvre la porte « au véritable “Talk to My Data” », résume Anthony Sirot.
Une recomposition des offres « data » au nom de l’IA agentique
Auprès de SearchDataManagement (une publication sœur du MagIT), Donald Farmer, fondateur et analyste de The TreeHive, voit à juste titre une vaste entreprise de renommage et de repackaging. Google Cloud a pris la manie de personnifier ses visions stratégiques inspirées par les tendances du moment, en modifiant à tout va les noms de ses produits. Gemini Enterprise Agent Platfom, l’annonce phare de Google Cloud Next 2026, en est le parfait exemple.
Ce faux sentiment de nouveauté – qui pourrait donner l’impression que GCP tente de revendre ses produits à ses clients – ne gâcherait toutefois pas la proposition fondamentale du géant du cloud. Selon l’analyste, il fait preuve d’une maîtrise à tous les niveaux, du matériel, en passant par les couches de gestion de données puis les LLM jusqu’aux interfaces agentiques. Malgré les éventuels enfermements propriétaires à certains niveaux de la pile technologique, cette stratégie ferait écho chez les grands groupes. Et Anthony Sirot d’appuyer indirectement cette analyse, en mentionnant l’intérêt des entreprises du CAC40, déjà clientes de GCP.
Google Cloud joue cependant d’une certaine prudence. Pas question d’imposer l’ensemble des produits aux clients. De Thomas Kurian, CEO de Google Cloud, aux dirigeants français de GCP, le discours ne flanche pas. Les clients ont le choix des armes et peuvent utiliser les services de Google Cloud en lien avec ceux des autres fournisseurs et des contributeurs open source.
Mais à la question « n’est-il déjà pas trop tard pour des entreprises qui ont déjà investi de manière conséquente dans Snowflake et Databricks ? », la réponse invoque à nouveau cette notion de choix. Et de rappeler l’empreinte de BigQuery, qui, il faut bien le reconnaître, demeure le service de datawarehousing d’un hyperscaler le plus populaire du marché. Si malgré leurs défauts, les clients se tournent vers des acteurs partiellement agnostiques des fournisseurs cloud, n’est-ce pas pour une bonne raison ? En tout cas, comme les autres hyperscalers, Google Cloud rappelle que la gravité des données est de leur côté. Et l’IA agentique pourrait la renforcer.
