Kiattisak - stock.adobe.com

IA : Starburst veut rattraper Databricks et Snowflake

Le spécialiste de la fédération de données tente d’élargir son périmètre au-delà du data mesh et d’égaler ses concurrents sur le volet de l’IA générative et agentique. À ce jour, il présente une vision convaincante, qu’il faudra concrétiser.

Starburst a dévoilé lundi une série de nouvelles fonctionnalités, notamment AI Workflows et AI Agent. Ces annonces témoignent de la croissance de l’éditeur au-delà de son statut de spécialiste du data lakehouse.

Basée sur le moteur de requête Trino, la plateforme de Starburst (Galaxy en mode SaaS et Enterprise pour les déploiements self-managed/sur site) est souvent présentée comme le moyen de rendre tangible l’approche Data Mesh. Dans les faits, elle permet la fédération de données entre différents entrepôts, lacs et bases de données.

Au cours des dernières années, Starburst a élargi son offre. Il y a inclus un catalogue de données pour favoriser la découverte des données, une couche de gouvernance, des capacités de transformation et de gestion de flux de données, et même des outils d’analytique en libre-service. Il lui manquait la prise en charge de l’IA.

Les rivaux Databricks et Snowflake ont été parmi les premiers à afficher une feuille de route en matière d’IA générative et agentique. Beaucoup d’autres, dont Dataiku, ont également fait de la facilitation du développement des applications GenAI une priorité.

Aujourd’hui, Starburst rejoint la mêlée en dévoilant AI Workflows, un ensemble d’outils en préversion privée conçu pour permettre aux clients de développer, déployer et gérer des modèles et des applications d’IA.

« Starburst s’attaque aux risques les plus importants, notamment l’accès, la qualité des données, la confidentialité, les systèmes incompatibles et les architectures complexes », déclare Kevin Petrie, analyste chez BARC U.S. « Les caractéristiques d’AI Workflows, en supposant qu’il atteigne bientôt sa pleine disponibilité, reflètent une approche mature du marché ».

Les débuts de l’IA agentique chez Starburst

La suite comprend AI Search pour transformer les données non structurées en embeddings vectoriels dans Apache Iceberg. Les AI SQL Functions permettent d’exécuter des tâches mêlant prompts en langage naturel et requêtes SQL. AI Model Access Management doit régir les modèles et les applications d’IA. En outre, les AI Workflows et le Lakehouse de Starburst sont nativement connectés. L’environnement de développement n’exige pas que les utilisateurs déplacent des données ou construisent des pipelines complexes.

Au-delà des AI Workflows, Starburst ajoute de nouvelles capacités d’IA avec AI Agent.

L’éditeur a déjà lancé des fonctionnalités de traitement du langage naturel qui permettent aux utilisateurs d’analyser des données sans écrire de code. Aujourd’hui, il ajoute une interface conversationnelle préconstruite – actuellement en préversion privée – qui peut être déployée par des analystes ou des agents autonomes et qui vise à simplifier la documentation des produits et la génération d’indicateurs clés de performance.

« Ces flux de travail et agents d’IA s’appuient sur l’atout principal de Starburst, à savoir l’accès aux données sur site ou dans des environnements en cloud », considère Kevin Petrie.

En particulier, la transformation de données non structurées en vecteurs pour les préparer à une génération augmentée par la recherche est un ajout précieux, poursuit-il.

« Il s’agit d’une exigence clé pour les modèles GenAI », rappelle-t-il. Mais la plupart des entreprises ont déjà déployé des systèmes en s’appuyant sur les bases de données propriétaires et PostgreSQL.

Selon Matt Fuller, cofondateur de Starburst et vice-président des produits AI/ML de l’éditeur, ce sont les commentaires des clients qui ont motivé le développement d’AI Workflows et d’AI Agent.

Outre les nouvelles capacités d’IA, Starburst a également introduit les éléments suivants :

  • Starburst Data Catalog, un hub basé sur les métadonnées pour l’indexation et la gestion des données, qui remplace Hive Metastore dans Starburst Enterprise.
  • Auto-Tagging, une fonction qui utilise de grands modèles de langage pour détecter et classer les informations sensibles au niveau des colonnes.
  • Des pipelines Iceberg entièrement managés dans Starburst Galaxy qui comprennent des fonctions de maintenance intégrées telles que le compactage des fichiers et des options pour l’ingestion en continu et le chargement par batch.
  • Une maintenance automatisée des tables Iceberg afin de réduire les coûts de stockage et d’améliorer les performances des requêtes.
  • La prise en charge « native » des buckets S3 Tables en préversion privée.
  • Un routage automatique dans Starburst Galaxy, qui achemine les requêtes vers le cluster approprié afin d’améliorer les performances des requêtes.
  • Data-to-AI Readiness Blueprint, une offre de services qui fournit aux utilisateurs des schémas directeurs pour développer des infrastructures de données câblées pour les charges de travail IA.

Une vision à concrétiser

L’offre de services et l’étiquetage automatique sont généralement disponibles, tandis que le reste des annonces font l’objet de préversions plus ou moins avancées. Il y a en réalité peu d’informations techniques disponibles sur ces annonces. De fait, l’éditeur a prévu de (re) présenter ces produits lors d’un événement virtuel le 28 mai prochain. Par ailleurs, l’éditeur promeut le déploiement de l’IA sur site sans évoquer précisément son offre.

Collectivement, les nouvelles capacités poursuivent l’objectif de Starburst de fournir aux clients un accès rapide et gouverné aux données distribuées, selon Matt Fuller.

« Il ne s’agit pas de cocher des cases, mais de rationaliser la façon dont les entreprises activent leurs données à travers les environnements pour l’analytique et l’IA », avance-t-il.

Starburst entend concurrencer Databricks et Snowflake à mesure qu’il se développe au-delà d’un « lakehouse » paré pour le paradigme data mesh, poursuit Matt Fuller. Et d’affirmer que l’entreprise fournit une alternative aux deux solutions populaires en mettant l’accent sur l’interopérabilité et les standards open source. Une affirmation que l’on retrouve également dans la bouche des porte-parole de Databricks, Snowflake ou Dremio.

Au-delà des capacités d’IA, le point fort de l’éditeur est peut-être la composante services, selon Kevin Petrie.

« Leur nouvelle offre de services répond à un problème critique pour de nombreuses organisations. à savoir que leurs architectures de données ne sont pas prêtes à prendre en charge des modèles ou des applications d’IA », a-t-il déclaré. « Starburst peut les aider à se moderniser sans migrations coûteuses ».

À long terme, la feuille de route de Starburst continuera à se concentrer sur l’IA, selon Matt Fuller. Les agents IA capables d’agir de manière autonome semblent voués à pulluler. Starburst vise à s’assurer que les clients disposent d’une base de données capable de prendre en charge ce type d’applications.

« Notre feuille de route est axée sur la suppression des silos de données et la fourniture de l’infrastructure nécessaire pour alimenter ces agents avec des informations contextuelles et gouvernées, de leur ingestion à leur analyse », avance Matt Fuller.

Kevin Petrie a quant à lui suggéré que Starburst, qui évolue vers le développement de l’IA, devrait faire davantage d’effort pour intégrer les opérations de données, de développement et de modélisation.

« L’innovation en matière d’IA est centrée sur l’intégration des données, des modèles et des applications », note-t-il. « Pour soutenir cette intégration, Starburst ferait bien de s’associer à davantage de plateformes de modèles d’IA/ML et de framework de développement d’applications ».

Pour approfondir sur IA appliquée, GenAI, IA infusée