Chaosamran_Studio - stock.adobe.
IA : Starburst veut faire de sa plateforme la couche de contexte des entreprises
Le spécialiste de la fédération de données adapte sa plateforme pour l’IA agentique. Il entend faciliter la conception de domaines métier et de produits de données qui doivent nourrir en contexte les agents IA. Une approche saluée par les analystes, mais Starburst doit tout de même faire ses preuves face à Snowflake et Databricks.
Lors de son événement Datanova à Paris le 9 juin, Starburst a détaillé auprès de ses clients français les annonces qu’ils avaient faites à la fin du mois de mai aux États-Unis.
Il a d’abord évoqué la disponibilité générale d’AIDA (AI Data Assistant), une interface conversationnelle qui convertit des questions en langage naturel en SQL.
L’assistant agentique est plus particulièrement calibré pour trois catégories d’utilisateurs : les analystes, les data engineer et les dirigeants. AIDA produit des réponses sous forme de texte et de diagrammes.
La technologie n’est pas nouvelle et elle est maintenant à la main de la majorité des éditeurs de gestion de données. Snowflake, Databricks, Microsoft Azure ou encore Google Cloud sont quelques-uns des acteurs à proposer cette option.
Fidèle à son crédo, Starburst ajoute une capacité : l’exécution de ces requêtes sur toutes les sources fédérées enregistrées dans un compte administrateur. Les résultats peuvent ainsi couvrir de multiples dépôts et bases de données.
« Se connecter directement sur une base de données transactionnelle avec un système analytique demeure un anti-pattern », nuance Emma Tippet, Chief of Staff chez Starburst. « Généralement, nos clients se connectent à plusieurs entrepôts Snowflake, des instances avec Databricks et des répliques en lecture seule de SQL Server, des données figées dans Teradata, Cloudera, etc. Ils combinent ainsi des données analytiques et opérationnelles ».
Snowflake et Databricks proposent de la fédération de requêtes, mais les fonctionnalités ne sont pas aussi développées. Surtout, les deux concurrents n’ont pas réellement mentionné la possibilité de créer des agents IA à partir de données fédérées. Eux préfèrent d’abord ingérer les données, les transformer au sein de leur plateforme avant de les servir aux agents IA.
Des produits de données à enrichir à l’aide d’agents IA
Starburst recommande surtout de qualifier ces sources. Il suggère de s’appuyer sur des jeux de données déjà mis en ordre, à savoir des produits de données. Là aussi, l’IA générative peut être convoquée pour les enrichir avec des métadonnées. Des descriptions des jeux de données et des colonnes, des synonymes, et des valeurs de synthèse devront servir à « réduire le fardeau des data stewards ».
En préversion publique, l’éditeur ajoute une capacité nommée « Data Product as Code », c’est-à-dire la possibilité de définir des produits de données à l’aide d’un fichier YAML stocké et versionné dans un dépôt Git. Au sein de la chaîne CI/CD, le flux est composé de trois grandes phases : l’écriture, l’audit et la publication du produit de données. Sans surprise, l’édition de ces fichiers YAML peut être effectuée avec AIDA ou d’autres solutions d’IA. Le format YAML est dit lisible par les machines.
De fait, AIDA dispose de son propre serveur et client conforme au protocole MCP (Model Context Protocol). AIDA pourrait ainsi être l’orchestrateur de plusieurs agents IA.
En clair, Starburst entend créer des produits vérifiés et réutilisables. « Vous n’avez pas besoin de créer des milliers de produits de données. Vous devez mettre en place un cadre simple », affirme Adrian Estala, vice-président et Field Chief Data & AI officer chez Starburst. À partir de ce cadre et de quelques produits de données étalons, il semble possible d’en générer d’autres de manière « dynamique ». Ils seraient là pour répondre aux demandes des métiers, mais ne seraient conservés que si une question est récurrente.
La couche de contexte de l’entreprise, façon Starburst
Pour que tout cela fonctionne, l’éditeur dit mettre en place ce qu’il appelle la « couche de contexte de l’entreprise ». En pratique, elle se compose trois éléments : les produits de données, des domaines et un graphe sémantique.
Les produits de données incluent « des définitions métier, une logique de métriques, des synonymes, des classifications, des politiques d’accès, des propriétaires désignés et un contrat de schéma », affirme Starburst.
Ces mêmes produits de données sont idéalement rangés dans des domaines dont ils héritent des règles de gouvernance. Aux entreprises de décider ensuite la manière dont elles organisent ces domaines, indique Emma Tippet. « Dans certains cas, les domaines généraux, ceux dictés par les exigences du groupe, ne correspondent pas aux besoins des métiers. En créant des sous-domaines, il est possible d’afficher la même information de deux manières différentes. Néanmoins, les règles permettent de conserver la cohérence entre les deux visions ».
Enfin, le graphe sémantique incorpore des métriques liées aux règles métiers, les clés jointes, les synonymes, la propriété des domaines – bref toutes les métadonnées des tables. Les agents IA ont ainsi accès aux relations entre elles « sans avoir à les deviner ».
« Nous disposons d’un modèle propriétaire qui, en substance, présente toutes les entités que nous recensons et explique comment elles sont liées les unes aux autres », résume Emma Tippet. « Ensuite, une fois qu’un domaine ou un produit de données est alimenté, il est intégré au graphe de connaissances, lequel est mis à disposition via notre serveur MCP afin que n’importe quel agent puisse y accéder ».
Pour l’instant, ce graphe sémantique s’arrête au niveau du domaine. Plus tard cette année, Starburst fera en sorte qu’il traverse plusieurs domaines.
Pour organiser cette couche de contexte, Starburst a introduit le « Context Studio ». L’outil sera chargé d’extraire les informations depuis les catalogues de données existants, les outils BI, les suites de gouvernance et l’historique de requêtes, pour les pousser dans les Studio afin d’approuver manuellement les éléments qui constituent les domaines et les produits de données. Il faudra encore attendre son lancement en août prochain. Les flux de travail d’approbation agentiques pour la certification automatisée des actifs listés plus haut sont également au programme.
Et Adrian Estala d’affirmer que l’intégration des bonnes données et des règles métier, ainsi que le dévoilement progressif du contexte réduit le nombre d’itérations pour obtenir une bonne réponse avec un agent. Et de surcroît la consommation de tokens. Une allégation à vérifier dans le monde réel.
« Les entreprises qui adoptent l’IA ont besoin de programmes bien encadrés à l’échelle de l’organisation pour pouvoir mettre en production des flux analytiques agentiques en production de manière sécurisée », déclare Kevin Petrie, analyste chez BARC US, auprès de SearchDataManagement. « Ces fonctionnalités de Starburst les aideront à répondre à ces exigences en fédérant les métadonnées, en appliquant des règles cohérentes et en alignant les résultats sur des définitions standards », poursuit-il. « Leur intégration aux produits de données est essentielle ».
IA agentique : Starburst doit faire ses preuves
Stephen Catanzano, analyste chez Omdia, une division d’Informa TechTarget, est peu ou prou du même avis. Cependant, l’éditeur devra faire ses preuves face à ses compétiteurs qui ont attiré la plupart des grands comptes.
La fédération de requêtes et de données n’est pas la technique la plus usitée. Dans un même temps, le modèle de la centralisation vanté par Snowflake et Databricks n’est pas parfait. La preuve, les entreprises utilisent souvent les deux plateformes (ou plus) de concert. Néanmoins, les connecteurs managés doivent simplifier les échanges de données, même en cas de copie. L’approche de Starburst est davantage prisée des entreprises hautement régulées, dont certaines données ne peuvent pas sortir des entrepôts sur site.
C’est aussi pour cette raison que l’éditeur renforce son système de haute disponibilité et le routage des requêtes multicluster. L’objectif est à la fois d’assurer le failover, la répartition et l’isolation des charges de travail. De plus, les agents IA doivent pouvoir s’exécuter en même temps que les flux ETL et les outils de préparation de données. Le module est toutefois optionnel et les fonctions évoquées sont en préversion publique.
Il faut également retenir la combinaison de deux briques managées – Icehouse Ingest et Icehouse Lakehouse. Icehouse Ingest permet de charger des données en lot et des données de streaming stockées au format Apache Iceberg et à traiter avec la distribution de Trino de Starburst. Icehouse LakeOps correspond aux fonctions de compression de tables, d’optimisation des requêtes et d’observabilité.
Enfin, en préversion privée, en sus de l’approche d’autohébergement et de son offre managée, Starburst prépare le lancement d’un modèle Bring your own cloud.
