Après Snowflake, AWS, Microsoft, Google Cloud, Cloudera, Teradata, c’est autour Oracle de lancer son offre « Lakehouse ».

Pour rappel, le terme a été inventé par Databricks pour décrire sa combinaison d’un lac de données et d’un data warehouse. Plus spécifiquement, Databrick a d’abord ajouté une couche ACID par-dessus son data lake, puis s’est appuyé sur les fonctions SQL d’Apache Spark et un ensemble d’outils pour supporter les charges de travail analytiques, de machine learning et de deep learning.

Oracle s’inscrit dans cette tendance, mais à sa manière. Jusqu’alors, il proposait un certain nombre de briques et de services, qui, une fois mis bout à bout, pouvaient former un data lakehouse. Désormais, un produit porte cette appellation marketing.

Ainsi, c’est MySQL HeatWave Lakehouse, accessible en bêta sur le cloud OCI (Oracle Cloud Infrastructure), qui doit concurrencer BigLake de GCP et le « data cloud » de Snowflake.

Requêter les objects stores, la nouvelle lubie des fournisseurs Ici, Oracle s’appuie sur le moteur in-memory InnoDB pour accélérer les traitements OLAP et OLTP. Cela ne suffit plus. Le nerf de la guerre est la capacité de cibler des objects stores et de traiter les données stockées dans ces buckets, dans des formats divers et variés. « Les données stockées en dehors des bases de données connaissent une croissance considérable et, avec MySQL HeatWave Lakehouse, les clients peuvent tirer parti de tous les avantages de HeatWave sur les données résidant dans les magasins d’objets », vante Edward Screven, chief corporate architect chez Oracle dans un communiqué de presse. Pour cela, le fournisseur s’appuie depuis quelque temps sur son propre service de stockage objet, OCI Object Storage. Avec son offre Lakehouse, il ajoute la prise en charge des backups Amazon Aurora et RedShift. Il serait ainsi possible de combiner dans une seule requête des données en provenance d’un magasin d’objets et de MySQL. Pour rappel, MySQL HeatWave sur AWS, en disponibilité générale depuis un mois, permet en principe de cibler des données situées dans des buckets S3. En matière de formats de données, Heatwave Lakehouse peut ingérer des fichiers Parquet, Avro et CSV via des tables externes. Les concurrents d’Oracle, dont Snowflake et Google Cloud, se mettent doucement, mais sûrement à prendre en charge les formats de table Apache Iceberg, Delta Lake et Hudi. Est-ce une voie possible sur laquelle Oracle souhaite s’investir davantage ? « Tout d’abord, nous devons apporter HeatWave Lakehouse en disponibilité générale », tempère Steve Zivanic, Vice-président monde base de données et services autonomes chez Oracle, auprès du MagIT. « Nous avons dévoilé cette bêta sur OCI. Par la suite, nous proposons le service sur AWS. » Steve ZivanicVice-président monde base de données et services autonomes, Oracle « Ensuite, nous avons dévoilé cette bêta sur OCI. Par la suite, nous proposons le service sur AWS », poursuit-il. Toutefois, il s’agit bien de supporter les services spécifiques des clouds sur lesquels Oracle pourra installer son « Lakehouse ». « Nous optimisons ce service pour différents clouds, mais nous souhaitons apporter la même expérience », affirme Steve Zivanic. « Tout ce que nous introduisons sur un cloud, nous souhaitons le répliquer sur les autres ». Pour le moment, le lakehouse peut traiter des données structurées et semi-structurées. Par exemple, pour traiter les fichiers CSV, Oracle assure que sa technologie peut améliorer les performances pour traiter des dizaines de téraoctets de données. Dans les grandes lignes, InnoDB lit les données dans les tables de MySQL, puis les transforme afin de fournir une représentation optimisée pour les traitements en mémoire. Cette représentation repose en réalité sur un format colonne hybride propriétaire. De la même manière, avec Heatwave Lakehouse, les données en provenance d’un service de stockage objet comme des fichiers CSV sont lues, puis transformées automatiquement en une représentation en mémoire. Pour cela, Oracle s’appuie sur les fonctions de MySQL Autopilot. Cette technologie doit automatiser l’inférence des schémas des fichiers CSV. « Autopilot déduit automatiquement le mappage de données du fichier aux types supportés par la base de données », selon la documentation du fournisseur. « Par conséquent, les clients n’ont pas besoin de spécifier manuellement le mappage pour chaque nouveau fichier à interroger par MySQL HeatWave Lakehouse, ce qui leur permet d’économiser du temps et des efforts ». Autopilot est également utilisé pour échantillonner les données stockées dans les services de stockage objet pour optimiser les schémas et les requêtes. La même technologie est utilisée afin de prédire le temps que prendra un chargement de données et en réponse générer des scripts de chargements, normalement plus performants qu’une manipulation manuelle.