sdecoret - Fotolia

IA agentique : Starburst joue encore la carte de la fédération de données

Starburst affine sa stratégie en matière d’IA agentique. Il entend surtout mettre son moteur de fédération de requêtes, sa couche de gouvernance et de gestion de produits de données au service de l’orchestration multiagent.

Starburst, l’éditeur d’un moteur SQL analytique sur base Trino se place en alternative ou en complément de Databricks et Snowflake avec son socle de lakehouse.

Dans le cloud, il propose bien une offre managée visant à rivaliser avec ces plateformes. Sur site, sa solution remplace Hive et Impala et se connecte à MinIO (entre autres), les clusters Hadoop restants et certaines bases de données, dont PostgreSQL et Apache Pinot.

Si Starburst a obtenu ses lettres de noblesse en proposant un accélérateur pour les charges de travail analytiques, il lui faut bien suivre la tendance du marché : l’intégration de l’IA générative.

« Comme tout le monde, nous avons commencé par intégrer l’IA dans des fonctions SQL associées à de la recherche vectorielle et de l’appel de modèles d’embedding », déclare Victor Coustenoble, architecte de solutions et chef d’équipe SEMEA chez Starburst. Cette capacité se nomme tout simplement AI SQL Functions.

« Nous pouvons nous connecter à d’autres SGBD, mais nous avons notre base de données vectorielle au format de tables Apache Iceberg », ajoute-t-il. Plus précisément, Starburst peut aller chercher les vecteurs stockés dans PostgreSQL avec PGVector et dans Elasticsearch, en sus de son propre « embeddings store ». L’idée est d’unifier les capacités de RAG.

La plateforme permet également de gouverner les modèles de langage dans ce contexte de workloads SQL/IA, d’en surveiller la consommation et l’utilisation. C’est le rôle d’AI Access Management.

Starburst associe ses capacités à son approche en matière de produits de données. « Tout le monde veut interroger ces données structurées avec de l’IA pour les comprendre. En revanche, sans contexte, sans métadonnées, les modèles hallucinent », explique Victor Coustenoble. « Les produits de données permettent d’ajouter une couche sémantique, une explication des jeux de données réunies dans des petits data marts. Un agent IA peut ensuite faciliter l’interrogation en langage naturel des données par les métiers ».

Starburst a commencé par lancer un chatbot/agent IA en mai dernier. Celui-ci peut servir à générer de la documentation à partir des produits de données, à aider les ingénieurs à gérer les tables et leur schéma, à faciliter l’exploration et à créer des rapports pour les métiers. Ce produit demeure en préversion privée.

Après la fédération pour les produits de données, la fédération pour les agents IA

Au début du mois d’octobre, l’éditeur a dévoilé Agentic Workforce, une suite de fonctionnalités visant à faire de Starburst le socle de systèmes multiagents. Outre l’ajout de fonction de visualisation de données, de Starburst Agent, il lancera son propre serveur MCP et une API « agent ». L’objectif : faire en sorte que des agents tiers puissent se connecter à sa plateforme.

« Le serveur MCP permet de rechercher des données dans un data product, de générer et d’exécuter du SQL sur notre moteur Trino, rechercher des tables, des vues, etc. », liste Victor Coustenoble.

Starburst compte prendre en charge les interactions avec LangChain et CrewAI, deux frameworks open source de création d’agents IA. Pour l’instant, l’éditeur n’a pas évoqué l’ajout d’Agent2Agent.

À son habitude, Starburst entend fédérer les usages. Pas question d’imposer aux clients le choix de la base de données RAG, ni des LLM et de leur mode de déploiement. Ainsi, ces fonctionnalités seront disponibles dans le cloud (Starburst Galaxy), en mode hybride et sur site (via Starburst Enterprise). Un autre moyen de se différencier de Databricks et Snowflake. Et de répondre aux demandes directes de ses clients.

L’approche hybride et on-premise, un atout majeur pour Starburst

Une approche saluée par les analystes. « Les organisations soucieuses de la conformité hébergent près de la moitié de leurs sources de données, de leurs pipelines et de leurs initiatives de feature engineering sur site pour leurs projets d’IA », déclare Kevin Petrie, analyste chez BARC US, auprès de SearchDataManagement, une publication sœur du MagIT. « Ces entreprises n’ont pas les moyens de tout consolider, elles ont donc besoin d’aide pour interroger et gérer ces éléments de manière cohérente et fédérée ».

« Compte tenu de la situation actuelle du marché, toute mise à jour concernant la gouvernance de l’IA doit être considérée comme importante », note David Menninger, analyste chez ISG. « Nos recherches montrent que plus des deux tiers des plateformes d’IA présentent des lacunes en matière de gouvernance des données. De plus, nous constatons une inquiétude croissante concernant la souveraineté des données, un problème que la plateforme Starburst contribue à résoudre ».

Des arguments qui font mouche en Europe, selon Victor Coustenoble. Pour l’instant, certains clients en France et en Europe testent les agents IA de Starburst. « Nous avons un client du secteur bancaire qui veut en partir en production. Il déploie un RAG SQL à partir de mails de support déjà stockés dans une base de données cloud. D’autres clients expérimentent notre agent IA », illustre-t-il. « Sont-ils prêts ? Oui, ils ont envie de voir, de tester. C’est vrai chez les banques, les assurances, chez les opérateurs télécoms. Reste à savoir si cette technologie sera déployée à l’échelle », s’interroge-t-il.

Les fonctionnalités liées à l’IA agentique devraient être disponibles au cours du quatrième trimestre 2025.

Starburst Enterprise : les clients français et européens se préparent à passer à l’échelle

La majorité des clients français ont tout de même choisi Starburst pour l’on premise, le cloud hybride et la fédération de données. « Les clients veulent désormais passer notre plateforme à l’échelle. Ils ont des questions sur l’adoption d’Apache Iceberg, la haute disponibilité, la sécurité, la gouvernance, la performance et le multiclustering », évoque Victor Coustenoble. Ceux-là cherchent à remplacer ou à compléter des instances Cloudera ou Teradata.

Certains clients de longue date ont déployé Delta Lake, le socle open source de Databricks ou Databricks lui-même. Starburst prend donc toujours en charge Delta et Hudi. Le format Iceberg est devenu dominant. D’ailleurs, l’éditeur prend en charge depuis peu la version 3.0 du format (plus performant et adapté à davantage de types de données), ainsi que le versionnage de ces tables.

Pour autant, la guerre des catalogues de métadonnées, une clé de voûte d’Iceberg, n’est pas terminée. Plusieurs projets se « battent » pour la première place : Apache Polaris (Snowflake), Unity OSS (Databricks), ou encore Apache Gravitino (DataStrato). Là encore, Starburst choisit de ne pas choisir. Il fournit un métastore propriétaire compatible avec Unity Catalog de Databricks, l’API REST d’Iceberg, AWS Glue, Polaris et Apache Hive.

Certains lui reprochent de maintenir le contrôle sur ce catalogue, comme le fait AWS.

« L’important, pour éviter l’enfermement propriétaire et la dette technique, c’est la notion de choix », répond Justin Borgman, cofondateur et CEO chez Starburst, lors de l’événement IA DataNova. Il ne s’agirait pas de reproduire la centralisation poussée par les concurrents.

Renforcer les fondations d’une solution parfois complexe

Ce métastore propriétaire nommé Starburst Catalog est l’un des composants de la gestion multicluster. Il est censé remplacer Apache Hive et peut être déployé sur Kubernetes. Il sert aussi de control plane pour les métadonnées techniques de Starburst Enterprise. Il est complété par Starburst Gateway. Comme son nom l’indique, cette solution répartie les charges entre les différents clusters. Un portail d’administration permet de configurer les deux composants. Pour l’instant, cette gestion multicluster est en préversion.

En septembre, l’éditeur a rendu disponible son système de gestion de produits de données sur site. Le partage des « data products » entre clusters est encore en préversion privée.

Il a également amélioré les performances des agrégations et des jointures. Sur les benchmarks génériques, la vitesse d’interrogation a augmenté de 20 %, tout en utilisant 30 % moins de temps CPU. Dès lors, le solution architect Victor Coustenoble croit que son employeur a « un coup à jouer sur le couple coût-performance ». Starburst Enterprise serait 22 % plus rapide que la version open source de Trino. Sa version cloud serait plus rapide que Snowflake et Databricks au moment d’exécuter des traitements SQL. Il faut dire que Trino délègue des sous-éléments d’une requête au moteur des bases de données sources.

Pour autant, Starburst serait complexe pour certains utilisateurs et départements IT. L’éditeur en est conscient et s’appuie sur ses partenaires. En France, l’éditeur s’est dernièrement rapproché de Sfeir et de son cabinet WenVision ainsi que d’Inetum. Il liste également Artefact, Capgemini, Devoteam, Talan, Onepoint, ou encore Olexya (pour en citer quelques-uns).

Sur site, Starburst entretient un partenariat avec Dell, qui utilise la distribution commerciale au sein d’une solution packagée comprenant des serveurs de calcul, de stockage (compatible HDFS et S3), Apache Spark et Kubernetes. Dell vient d’ailleurs d’annoncer une nouvelle offre rassemblant les moteurs de traitement de Starburst, d’Elastic et les technologies de recherche vectorielle de Nvidia.

Pour approfondir sur Datawarehouse