AI World : Oracle finalise non pas un, mais deux lakehouses
Entre la philosophie de Databricks et celle de Snowflake (qui n’est autre qu’une évolution de la sienne), Oracle ne choisit pas. Il adopte les deux approches du lakehouse à la fois.
Oracle AI Data Platform (AIDP) entre en disponibilité générale. Elle est l’évolution de la plateforme de gestion de données présentée par le fournisseur en 2022.
La plateforme repose sur Autonomous AI Database (le nouveau nom d’Autonomous Data Warehouse), les fonctions analytiques d’Oracle, ses services d’IA générative et son stockage objet.
Sur le papier, les primitives du produit n’ont pas fondamentalement évolué. Oracle prend en charge Delta Lake, Apache Hudi et Apache Iceberg via le format Delta UniForm. Il a intégré des notebooks Python ou SQL, prend en charge le moteur Apache Spark et s’intègre aux outils BI d’Oracle (Analytics Cloud) et de tiers (Power BI, Tableau). La compatibilité avec Java et Scala est prévue prochainement.
À noter qu’Apache Kafka peut être une source de données pour l’AI Data Platform. En ce sens, Oracle prévoit l’intégration du moteur SQL pour les flux quasi-temps réel (Apache Flink).
AI Data Platform pour les traitements Spark, AI Lakehouse pour l’analytique
Comme Databricks, Oracle se propose d’implémenter une architecture médaillon, c’est-à-dire un système de préparation de données basé sur trois couches principales : bronze (données brutes), silver (données filtrées), gold (produits de données). Les utilisateurs peuvent gérer des pipelines de données structurées ou non structurées, en mode low-code/no-code, ou à l’aide de notebooks pour orchestrer des charges de travail Spark (Spark SQL, PySpark).
Ces notebooks pourront être gérés depuis des « workspaces », des « conteneurs pour organiser les notebooks et les flux de travail ». C’est aussi la base pour entraîner et déployer des modèles de machine learning à l’échelle.
À l’instar de ses concurrents, Oracle fournit un Data Catalog, ainsi qu’une couche de gouvernance et s’appuie sur le protocole Delta Sharing pour favoriser les échanges de données avec un principe de gestion des accès par rôle (RBAC). Il est également possible d’exécuter des requêtes de fédération sur les services OCI, qu’importe s’ils sont déployés sur OCI, Google Cloud, AWS, Microsoft Azure ou dans des environnements hybrides.
« Nous vous donnons la possibilité d’intégrer ces modèles à vos données privées, sans les partager avec quelqu’un d’autre. »
Larry EllisonFondateur et CTO, Oracle
La nouveauté tient dans l’intégration d’OCI Generative AI.
Oracle prend directement en charge des modèles de Cohere, de Meta, les modèles open weight d’OpenAI, xAI et, à travers l’interconnexion avec GCP, les modèles Gemini. « Nous vous donnons la possibilité d’intégrer ces modèles à vos données privées, sans les partager avec quelqu’un d’autre », assure Larry Ellison, fondateur et CTO d’Oracle.
OCI Generative AI offre surtout une liste de fonctions SQL et de scripts Python afin d’exécuter des tâches de transformation. Aussi, la plateforme permet de déployer des clusters Nvidia, non seulement pour exécuter des modèles de langage, mais également des charges de travail prenant en charge les GPU. Cela se résume pour l’instant à l’accélération des traitements Spark (via Spark RAPIDS).
Le catalogue évoqué plus haut peut enregistrer les serveurs MCP et les agents IA connectés à la pile technologique d’Oracle. Et c’est un point qui justifie l’appellation AI Data Platform.
Prochainement, AI Data Platform inclura Agent Hub. Il est censé « abstraire la complexité » de l’orchestration multiagent. La démonstration laisse entrevoir une solution proche de celle de Dataiku qui porte le même nom. Une suite d’outils de développement d’agents suivra.
« Agent Hub devrait devenir une expérience multi-plateforme et multi-application permettant aux métiers d’exploiter les agents IA pour automatiser leur travail et améliorer leur productivité », résume T.K Anand, vice-président exécutif Data Intelligence Platform chez Oracle, lors d’un keynote de l’événement Oracle AI World.
Qui plus est, AIDP s’intègre principalement à Oracle Fusion, NetSuite et les applications sectorielles du fournisseur.
Au-delà des capacités techniques, Oracle assure que 8 000 praticiens ont été formés, principalement chez Accenture, Cognizant, KPMG et PwC. Ils auraient déjà développé plus de 100 cas d’usage spécifiques.
Toutefois, il ne faut pas confondre AI Data Platform et Autonomous AI Lakehouse, un mode de fonctionnement pour Autonomous Data Warehouse également lancé lors de l’événement annuel.
« [Les clients] bénéficient des mêmes fonctionnalités, mais avec la flexibilité nécessaire pour partager et utiliser ces données partout. »
Maria ColganV-P responsable des produits données critiques et moteurs d'IA, Oracle
En clair, contrairement à Snowflake, Databricks et Microsoft, Oracle semble maintenir une séparation des services en fonction des tâches cibles : l’analytique traditionnel d’un côté avec AI Lakehouse, et le Big Data, l’IA plus le machine learning à l’échelle, de l’autre avec AIDP. Comme si les solutions de Databricks et d’Oracle ou de Snowflake existaient au sein du catalogue d’un seul éditeur.
« Nous comprenons que les clients tiennent beaucoup à un standard ouvert pour leurs jeux de données. Sans dépendance vis-à-vis d’un fournisseur, cela leur permet d’accéder à ces données de différentes manières », déclare Maria Colgan, vice-présidente responsable des produits données critiques et moteurs d’IA chez Oracle, auprès de la presse française. « Nous avons adopté l’approche de Databricks pour leur offrir cette ouverture et cette disponibilité. Ils peuvent ainsi accéder à ces données comme si elles se trouvaient dans la base de données Oracle », confirme-t-elle. « Ils bénéficient des mêmes fonctionnalités, mais avec la flexibilité nécessaire pour partager et utiliser ces données partout ».
Deux lakehouses, 50 nuances d’Iceberg
AI Lakehouse prend aussi en charge Apache Iceberg. Toutefois, Oracle semble avoir adopté une approche différente de celle formulée dans la documentation d’AI Data Platform. Il n’est pas forcément nécessaire de passer par Delta UniForm suivant le métastore utilisé ou le service managé associé. Suivant les cas et l’architecture de l’entreprise, l’intégration est native, dans d’autres non.
« Pratiquement, n’importe quel catalogue Iceberg peut être ajouté en quelques étapes simples. »
Mike MatthewsDirecteur senior responsable produit, Oracle
« Nous avons initialement certifié l’accès aux catalogues AWS Glue, Snowflake Open Catalog (Polaris), Databricks Unity et Apache Gravitino Iceberg, mais pratiquement n’importe quel catalogue Iceberg peut être ajouté en quelques étapes simples », écrit Mike Matthews, directeur senior responsable produit chez Oracle, dans un billet de blog.
« Nous voulons nous assurer que les entreprises évitent les compromis qu’elles font habituellement », clarifie Maria Colgan. « S’ils optent pour le format Apache Iceberg pur, nous essayons de leur offrir le meilleur des deux mondes. Ainsi, non seulement les données proviennent d’Oracle en mode delta share, mais nous leur permettons également d’y accéder depuis un seul endroit ».
D’ailleurs, l’outil de gouvernance, de fédération et de catalogage d’AI Lakehouse permet de gérer des actifs stockés chez les trois hyperscalers. « Cela vous offre une découverte et un accès unifié aux données provenant d’Iceberg et de dizaines d’autres sources de données », affirme Juan Loaiza, vice-président exécutif des technologies critiques de base de données chez Oracle.
Plus tôt cette année, l’éditeur a mis à jour son ETL Oracle GoldenGate afin d’y ajouter la prise en charge d’Iceberg, des sources et des cibles associées.
AI Lakehouse peut aussi appeler des tables externes (CSV, Parquet, ORC, AVRO, Iceberg) et les mettre en cache dans l’Autonomous AI Database afin d’en accélérer l’accès. Le principal intérêt de ce mécanisme est de rafraîchir plus rapidement la visualisation de données dans les tableaux de bord et les rapports BI. Un système de mise à jour de type CDC permet d’actualiser les données. La gestion du cache est en grande partie automatisée. En clair, Oracle a intégré un système similaire à celui d’Indexima.
Data Lake Accelerator, lui, doit augmenter la vitesse d’accès aux données externes stockées dans des espaces de stockage objet pour Oracle Database 19c. Data Lake Accelerator est déployé dans une machine virtuelle gérée par le fournisseur.
Une autre fonctionnalité devrait intéresser les DSI qui luttent avec la prolifération des feuilles de calcul. Avec Autonomous AI Database, Table Hyperlink permet d’accéder de manière temporaire et contrôlée aux données en lecture seule de la base de données Oracle depuis Google Sheets ou Excel. La technologie permet d’importer 10 000 lignes ou 10 Mo au format CSV. Les métiers peuvent ensuite travailler sur les données. Une option permet de rafraîchir automatiquement les colonnes et les lignes. Plus tard, le fournisseur introduira un système pour s’assurer de la consistance des données (Autonomous Database devient alors une source unique de vérité) et regrouper les tables.
Oracle veut faire jeu égal avec Databricks et Snowflake… pour ses clients
En rien de tout cela n’est une révolution. Ce n’est pas le but.
« Sous le capot, AI Lakehouse d’Oracle fonctionne toujours sur son Autonomous Data Warehouse (ADW). La nouveauté réside dans l’évolution du modèle d’exploitation », affirme Michael Ni, analyste chez Constellation Search, dans un billet de blog. « En fusionnant Iceberg, les agents IA et l’automatisation des exécutions dans ADW, Oracle a transformé son entrepôt en un environnement d’exécution Lakehouse complet ».
« Oracle mise sur la pérennité en suivant rapidement le marché, en intégrant le comportement d’un lakehouse à sa base de données autonome existante et à ses capacités d’IA natives. »
Michael NiAnalyste, Constellation Search
En ce sens, le retard d’Oracle par rapport à Snowflake et Databricks ne serait pas un problème.
« Databricks a misé sur la vitesse. Snowflake a misé sur l’échelle. Oracle mise sur la pérennité en suivant rapidement le marché, en intégrant le comportement d’un lakehouse à sa base de données autonome existante et à ses capacités d’IA natives », poursuit Michael Ni.
Pour Kevin Petrie, analyste chez BARC US, Oracle n’offre pas « une différenciation notable par rapport à Databricks, Snowflake ou les hyperscalers. Mais cela doit permettre à Oracle de ne plus se faire “voler” des parts de marché par ses concurrents ».
Stephen Catanzano, analyste chez ESG, une filiale d’Omdia, croit que les fonctionnalités favorisent surtout les clients existants d’Oracle. « Les plateformes se distinguent particulièrement par leur intégration poussée à l’écosystème d’applications Oracle (Fusion, NetSuite) et par la promesse d’intégrations préconfigurées pour les principales suites d’applications Oracle », estime-t-il, auprès de SearchDataManagement, une publication sœur du MagIT.
En matière de stockage, Oracle s’était déjà assuré d’avoir une solution compétitive face aux hyperscalers et éditeurs cités plus haut. Reste à voir si les Lakehouses sont financièrement intéressants par rapport aux services concurrents.