Comme l’évoque LeMagIT, Databricks cherche à accélérer et à alléger l’ingestion de données vers sa plateforme. Il veut même faciliter l’intégration pour les data et business analysts, sous le patronage des ingénieurs de données.

Ses racines – la transformation de données à large échelle avec Apache Spark, le machine learning avec MLfLow – lui ont forgé une image qui lui colle à la peau. Databricks serait une suite complexe pour des profils techniques.

Ce n’est pas la première fois que l’éditeur tente d’attirer une population qui n’a pas naturellement accès à sa plateforme. Déjà, en 2020, la disponibilité d’environnement analytique, puis d’outils BI en 2021, étaient des portes ouvertes aux data analysts. Les porte-parole français constataient, en 2024, une plus forte adhésion des « business lines » à la plateforme. Il s’agit maintenant confirmer l’essai auprès des business analysts et des métiers en général.

Avec Databrick One, l’éditeur introduit un nouveau type d’accès à sa plateforme, nommé « Consumer acess ». L’utilisateur qui bénéficiera de cet accès pourra lire et écrire dans les espaces de travail Genie et effectuer des requêtes SQL sur Databricks SQL à partir d’outils BI tiers, dont Tableau et Power BI. Il aura un accès limité en lecture aux données présentes dans les tableaux de bord. « Consumer Acess » est disponible pour les clients ayant souscrit à la formule Premium et Enterprise.

L’expérience sera centrée autour des tableaux de bord AI/BI et des Databricks Apps (en disponibilité générale), mises à disposition par les équipes « data » pour les métiers. L’assistant intégré à AI/BI, Genie (adopté par 4000 clients en production, selon les porte-parole de l’éditeur), permettra aux utilisateurs d’interroger les données présentes dans les espaces de travail associés et d’obtenir des recommandations ou des analyses plus poussées.

Cette volonté, Databricks la formalise par le lancement de Databricks One, en bêta cet été. One est présentée comme une expérience utilisateur conçue pour les métiers. L’éditeur entend fournir « un seul point d’entrée pour interagir avec les données et l’IA, sans nécessairement avoir besoin de comprendre les notions de clusters, de requêtes, de modèles ou de notebooks ».

Une prise en charge d’Iceberg de plus en plus fine

Cette couche chapeaute un élément crucial pour les Chief Data officer, la DSI et les directions métier : l’interopérabilité des données. L’éditeur a tenté de porter son propre format de tables open source. Force est de constater qu’un des formats concurrents, Apache Iceberg, domine les discussions. Pour rappel, le rachat de Tabular par Databricks avait fait grand bruit : la startup était présidée par l’un des cofondateurs d’Iceberg. In fine, Snowflake y a vu la confirmation de sa conviction. Iceberg serait le vainqueur à l'issu de cette bataille.

Unity Catalog prend désormais en charge l’API REST Catalog du projet open source Apache Iceberg. En disponibilité générale, Databricks permet aux moteurs de traitement externes – plus précisément Trino, Snowflake et Amazon EMR – de lire les tables Iceberg gérées par Unity Catalog et, en préversion publique, d’écrire sur ces mêmes tables. « C’est un différenciateur majeur sur le marché, qui élimine le verrouillage propriétaire des tables et assure une interopérabilité totale », vante Databricks. Il s’agit là d’une petite pique envoyée à son compétiteur principal. Malgré son engagement à un « support complet » d’Iceberg, Snowflake ne permet pas encore à des moteurs externes d’écrire sur ses propres tables Iceberg managées.

Précisons que les tables Iceberg gérées par Databricks sont en préversion publique, tout comme le système de fédération de catalogue de métadonnées, compatible avec AWS Glue, Hive et Snowflake Horizon. Le système de partage Delta Sharing prend partiellement en charge ces tables open source. L’éditeur promet diverses optimisations pour Iceberg et assure que ce ne sont pas des tables externes ou étrangères. Toutefois, Delta demeure – à ce jour – son format principal.

Là encore, Databricks met en avant sa volonté d’accorder ses instruments au diapason des besoins métiers. En préversion publique sur AWS, GCP et Azure, les métriques Unity Catalog doivent permettre de créer des définitions associées aux données et aux actifs dans la plateforme afin de constituer « une seule couche sémantique » pour les charges de travail analytiques et IA. Ces métriques gouvernées sont compatibles avec Genie, les tableaux de bord AI/BI, les notebooks, les jobs SQL et Lakeflow. Plus tard, Databricks les intégrera avec les outils BI Tableau, Hex, Sigma, ThoughSpot, Omni, et les plateformes d’observabilité de données Anomalo et Monte Carlo.

A cela s’ajoutera une expérience de découverte de produits de données au sein de places de marché internes, un moyen d’organiser des domaines de données, de libeller des données certifiées ou à déprécier, ainsi qu’un ensemble de fonctions pour contrôler l’accès aux informations et en établir le niveau de criticité. La plupart de ces capacités sont encore en bêta. Qui plus est, un outil de supervision de qualité de données sera prochainement disponible sur Azure, GCP et AWS.

Enfin, pour tous ceux qui voudraient monter en compétence, Databricks a présenté une version gratuite de sa plateforme, qui remplace son édition communautaire.