Si Databricks a popularisé la notion de Lakehouse, les utilisateurs de la plateforme l’ont d’abord exploitée comme une distribution commerciale d’Apache Spark. Petit à petit, l’éditeur a réussi à convaincre ses clients d’adopter les différentes briques de son architecture.

Il faut dire que la plateforme de son adversaire Snowflake s’avère aussi robuste qu’elle coûte cher, d’après les retours de plusieurs clients auprès du MagIT.

Les ingénieurs de What If Media Group sont publiquement du même avis. L’éditeur d’une plateforme d’acquisition clientèle affirme avoir diminué de 76 % ses coûts d’infrastructure « data » en migrant de Snowflake vers Databricks. Un joli coup de publicité pour le second.

Reste que Databricks doit se mettre à niveau. Depuis deux ans, Snowflake a réussi à convaincre les entreprises d’adopter sa solution pour partager/échanger des données et, petit à petit, bâtir des applications qui les exploitent.

Delta Sharing : Databricks s’entoure de poids lourds du marché

Pour combler son retard, Databricks poursuit ses efforts en vue de renforcer l’intérêt Delta Sharing, son protocole de partage de données open source.

Récemment, Oracle a annoncé prendre en charge Delta Sharing afin de permettre à ses clients de partager des tables depuis Autonomous Data Warehouse. Databricks peut également compter sur le soutien de Dell, Twilio et Cloudflare.

Pour rappel, Delta Sharing permet de partager le contenu de tables Delta Lake (des fichiers Parquet stockés dans des objets S3) via un serveur de partage et une API REST. Databricks dispose de connecteurs vers PowerBI, Apache Spark, Pandas DataFrame, MLflow, Arcuate, et prend en charge les langages SQL, node.js, Java, Python, Scala, C++, Go, R, et Rust. Des intégrations avec Excel, Lakehouse sharing, Airflow et Google Spreadsheet sont en préparation.

« Environ 6 000 clients différents utilisent ou ont utilisé le protocole Delta Sharing », estime Matei Zaharia.

Lors de la présentation de ses résultats financiers du premier trimestre fiscal 2024 le 24 mai dernier, Snowflake estimait qu’approximativement 25 % de ses 8 167 clients maintiennent « au moins » un lien de partage de données (l’équivalent de 20 transactions entre un fournisseur et un consommateur pendant trois semaines). Cela représente un peu plus de 2 000 organisations.

Le CTO défend le fait que les solutions concurrentes, plus particulièrement celles de Snowflake et de BigQuery, ne sont pas interopérables avec d’autres plateformes de données. Pour autant, tout comme Oracle, Databricks offre des fonctionnalités spécifiques de partage entre les instances de sa plateforme, notamment l’échange de notebooks.