nito - Fotolia

OpenSharing : Databricks étend Delta Sharing aux données non structurées et à l’IA agentique

Lors de sa conférence Data+AI Summit à San Francisco, Databricks a détaillé Opensharing, un projet open source de partage d’actifs IA, dont des données non structurées, des skills et des agents IA. Ce sur-ensemble reposant sur le protocole Delta Sharing permet en premier de prendre en charge les tables Apache Iceberg et les espaces de stockage déployés sur site.

Présenté le 10 juin dernier comme l’évolution de Delta Sharing, OpenSharing est un protocole de partage open source contribué par Databricks et incubé par une division de la Linux Foundation.

Pour rappel, l’éditeur avait créé et légué Delta Sharing à la LF Data & AI en 2021. Il est pensé pour distribuer des tables Delta en mode « zero copy » entre des producteurs et des consommateurs de données. Les tables sont généralement mises à disposition d’outils de visualisation (Tableau, Power BI, etc.) ou des moteurs de transformations de données (Apache Spark, entre autres).

Même si l’hébergement en propre d’un serveur Delta Sharing est possible, le protocole a en premier lieu servi à faire « parler » Databricks avec le reste du monde. Petit à petit, les éditeurs l’ont pris en charge. Son concurrent Snowflake l’a suivi récemment.

Partager des documents, des skills et des agents IA

« Nous constatons une forte croissance de Delta Sharing », affirme Akram Chetibi, directeur produit de l’écosystème des intégrations chez Databricks, auprès du MagIT. « De très nombreux partenaires l’utilisent : des fournisseurs de données du secteur financier comme S&P Global ou le London Stock Exchange Group, du domaine de la santé tels IQVIA, ou encore des éditeurs de logiciels SaaS, dont SAP ou Procore ». Environ 28 000 « récipients » de données seraient partagés, dont 33 % d’entre eux passent par des « connecteurs ouverts ». Ce sont des implémentations du protocole non gérées par un éditeur.

Mais un nouveau défi se présente à l’écosystème. Delta sharing ne répond pas aux besoins des entreprises liés à l’IA générative, à la computer vision et à l’IA agentique. Au mieux, les parties prenantes peuvent se transmettre des données semi-structurées. « Les clients souhaitent partager des tables Delta et Apache Iceberg, mais aussi des données non structurées », poursuit Akram Chetibi. « Dans le domaine de l’IA, nous voyons par exemple beaucoup d’images dans le secteur de la santé ou de fichiers PDF, comme des factures et autres documents de ce type ». C’est depuis longtemps possible avec le protocole SFTP, mais il n’offre pas la granularité attendue en matière de gestion des droits et d’accès et il réclame de copier les données. Ces entreprises souhaitent aussi collaborer des objets techniques issus de leurs projets d’IA.

« Ce partage ouvert n’était pas possible auparavant », avance l’interlocuteur du MagIT. « Nous appliquons les mêmes principes qui sous-tendent Delta Sharing à l’IA : les clients veulent une flexibilité des formats, partager leurs actifs à travers les clouds, différentes régions et les plateformes et une API standard, sécurisée, pour découvrir les objets disponibles », résume-t-il.

La prise en charge des tables Iceberg et des espaces de stockage objet on-prem, les deux premiers bénéfices d’OpenSharing

Techniquement, OpenSharing représente un « sur-ensemble » du protocole Delta Sharing. Il s’appuie sur la même architecture client-serveur pour établir des accès à un Share. Un Share correspond à « un ensemble d’éléments nommé et soumis à un contrôle d’accès, attribué à un ou plusieurs destinataires ». Un seul identifiant suffit pour explorer un dossier. Au sein d’un « Share », les schémas sont des namespaces qui regroupent des actifs associés. Chaque actif possède son propre modèle de métadonnées, son API d’accès et une méthode d’authentification.

Les responsables du projet OpenSharing ont spécifié la manière de partager des tables Delta ET Icerberg (à travers l’API REST Catalog), ainsi que des fichiers au format Parquet. Avant même les actifs IA, OpenSharing représente donc l’ouverture nécessaire du protocole sous-jacent vers le format de tables open source le plus populaire.

Le protocole assurer de surcroît l’accès sécurisé à des volumes, à savoir des buckets de stockage objet contenant des documents non structurés. Le protocole stipule déjà les liens vers les services des hyperscalers et Cloudflare (ADLS, Amazon S3, GCS, R2), mais les équipementiers (Everpure, Qumulo, MinIO, et plus tard HPE, Cohesity, NetpApp, Nutanix, Vast et Rubrik) sont également de la partie. En clair, les entreprises pourront transmettre des portions de données hébergées sur site vers leurs partenaires exploitant une plateforme en cloud public ou privé. Selon le responsable chez Databricks, cette prise en charge facilite surtout les traitements déportés ou la fédération de données en interne. « Nos clients disposent de données sur site, mais ils n’ont pas les capacités de calcul pour les transformer localement. Lorsque les données ne sont pas sensibles ou que le niveau de sécurité s’avère acceptable, ces traitements se feront sans copier les données », avance-t-il.

Des travaux à venir pour partager davantage d’actifs IA

OpenSharing doit aussi prendre en charge les skills d’agents IA (en respectant la specification AgentSkills) et les modèles de machine learning. Les membres de la communauté ont suggéré qu’OpenSharing facilite le partage d’agents IA et de « pages », à savoir des définitions métiers, des métriques ou des dimensions liées à un même schéma. « Certaines propositions portent sur le partage d’ontologies », note Akram Chetibi.

Le protocole Model Context Protocol n’intègre pas encore le partage de skills, mais c’est au programme. La spécification en cours de définition s’avère plus générique et publique que celle introduite par OpenSharing. Cette dernière concerne davantage la découverte et l’accès authentifié à des actifs privés, souligne le responsable.

Selon la feuille de route d’OpenSharing, les contributeurs s’intéressent à la redistribution de jeux de données d’évaluation et de benchmarks pour les LLM, de données synthétiques et d’index de vecteurs employés dans les systèmes RAG. Les métadonnées associées à l’index indiqueraient le modèle d’embedding utilisé, sa version, la stratégie de chunking privilégié, la taille des vecteurs (la « dimensionalité ») et l’algorithme de similarité requis.

La « roadmap » ne comporte pas de nouveaux connecteurs vers des systèmes cibles. Or les outils de BI et les moteurs de transformation de données cités plus haut ne sont pas conçus pour les données non structurées. La prise en charge de Java, Go, Node.js ou du framework Pandas exige des développements spécifiques.

Databricks est évidemment le premier à intégrer le protocole dans sa plateforme en lien avec Unity Catalog. Il est suivi par Amperity, Atlassian et Oracle. Pour l’instant, les actifs IA s’échangent entre des instances Databricks distinctes ou entre Databricks et ces outils tiers compatibles. « Nous essayons de rendre le protocole le plus ouvert possible. Le partage d’actifs IA entre plateformes non-Databricks doit se passer de la même manière », insiste Akram Chetibi. « Et lorsqu’un éditeur cherche à implémenter [OpenSharing], nous accepterons toujours sa contribution ».

Le développement de l’écosystème s’avère tout aussi important que la feuille de route technique d’OpenSharing, selon lui. « Delta Sharing est bien établie, mais nous devons désormais convaincre les partenaires et les clients d’adopter le nouveau protocole. Cela implique une collaboration étroite pour identifier et mettre en œuvre les ajustements nécessaires afin de rendre OpenSharing réellement efficace », affirme-t-il.

Outre Oracle, Atlassian et Amperity, SAP, OpenAI, London Stock Exchange Group, Axciom ou encore Stripe sont quelques-uns des acteurs intéressés par OpenSharing.

 

Pour approfondir sur Open Source