BI : Databricks infuse un assistant IA pas totalement comme les autres

Lors du Data+AI Summit 2024, Databricks a présenté son offre AI/BI. Son système composite propulsé de LLMs permet d’échanger avec un assistant IA couplé à une couche de compréhension sémantique dynamique.

Quatre ans après l’acquisition de Redash, Databricks a présenté AI/BI, les deux faces de la pièce décisionnelle au sein de sa plateforme.

La disponibilité générale des tableaux de bord d’AI/BI scelle non seulement l’intégration des outils de Redash, mais surtout leur simplification pour les utilisateurs les moins formés. Alors que la solution acquise par Databricks s’appuyait à l’origine sur des notebooks et des requêtes spécifiques, les porte-parole vantent l’aspect low-code de cet outil regroupant l’essentiel des fonctionnalités que l’on attend d’un outil de ce type, y compris la possibilité d’envoyer des rapports en PDF à 100 « abonnés ». Ces tableaux de bord sont infusés dans la plateforme, ce qui, selon l’éditeur, permet d’appliquer les mêmes règles de gouvernance sur les visualisations de données que sur les autres charges de travail. De même, ce produit est connecté aux capacités IAM de Databricks et aux IDP comme Okta et Entra ID (Azure Active Directory).

Lakeview Dashboards… devient Dashboards

Ce produit existait déjà sous le nom Lakeview Dashboards. Databricks prend également en charge des « legacy dashboards » qu’il continuera à prendre en charge sans lancer de réelles améliorations à l’avenir. L’éditeur recommande de migrer les tableaux de bord existants vers la nouvelle solution, dont la configuration serait plus simple.

Cet espace de travail est connecté à une instance SQL warehouse. Un tableau de bord peut prendre en charge jusqu’à 100 « datasets », c’est-à-dire une nouvelle requête contre une ou plusieurs tables et vues, ainsi que des tables et des vues déjà référencées dans Unity Catalog.

Pour autant, Databricks n’a toujours pas la prétention de remplacer les suites décisionnelles du marché.

« Nos tableaux de bord d’aujourd’hui sont loin d’être aussi mûrs que ce qu’offrent Power Bi ou Tableau », reconnaît Joel Minnick, vice-président marketing chez Databricks, reprenant les propos des porte-parole sur la scène du Data+AI Summit 2024. « Et pour les personnes qui recherchent une expérience de tableau de bord très riche, nous avons d’excellents partenariats avec Power Bi et Tableau, ainsi qu’avec d’autres fournisseurs de solutions BI ».

Ce n’est que la surface du diptyque AI/BI. L’autre volet de cette solution se nomme Genie.

Genie et sa couche de compréhension sémantique

Genie est un « système composite », c’est-à-dire une application motorisée par un ou plusieurs grands modèles de langage (LLM) ayant accès à différents outils au sein de la plateforme.

Il pourrait être considéré comme un assistant de plus. Ce n’est pas totalement le cas. Les solutions comme Tableau Pulse, Copilot for Power BI n’ont pas accès directement aux warehouses. Ils ont par ailleurs besoin d’un modèle de données clairement défini ou d’un modèle sémantique déjà établi.

Dans le détail, Genie a potentiellement accès aux métadonnées du catalogue Unity, à l’historique des requêtes de tous les workloads, aux notebooks, aux dashboards, et aux modèles sémantiques existants.

Le modèle sémantique sous-jacent peut profiter d’addendum. Comment ? Lors de deux démonstrations, Databricks et l’un de ses clients (le club de baseball Texas Rangers) ont cherché à prouver qu’il était possible d’utiliser les capacités « chain of thought » des grands modèles de langage pour comprendre un concept qui pourra être utilisé par tous les utilisateurs dans l’entreprise. Par exemple, la démonstration de Databricks portait sur l’assimilation par le système composite de l’attrition. Genie, n’ayant pas cette information dans son modèle sémantique, a répondu qu’il ne connaît pas la définition de l’attrition. L’utilisateur peut lui expliquer en langage naturel avant que le modèle propose une réponse adéquate, en générant et en exécutant une requête SQL puis un diagramme associé.

Cette capacité provient de DatabricksIQ, un autre système composite qui exploite plusieurs LLM et des techniques de recherche (RAG, classement) pour comprendre et concevoir une couche sémantique vouée à s’enrichir au fur et à mesure des requêtes et des questions.

Dans le cas où une réponse n’est pas satisfaisante, l’utilisateur peut la noter d’un pouce vers le bas. Ce retour peut être surveillé par les ingénieurs de données afin de savoir pourquoi Genie a échoué. Il est également possible de créer des instructions contenant des métadonnées et des logiques métier dans l’interface. Les instructions et les séquences SQL générées les plus utiles peuvent être sauvegardées et être réutilisées plus tard.

« Le système comprend la traçabilité, la gouvernance, les flux de données. Et Genie fournit la couche de compréhension sémantique qui peut être nourrie par les utilisateurs ».
Joel MinnickV-P marketing, Databricks

Sega Europe donnerait déjà accès à plusieurs de ses employés et cadres Genie afin d’interroger les questions « inconnues » sans avoir à faire appel aux data analysts ou aux data engineers.

« Je pense que ce n’est pas la faute des outils BI, mais de l’endroit où réside le copilote », considère Joel Minnick. « Si l’assistant repose sur la couche la plus haute et qu’il ne peut pas avoir accès aux couches les plus basses, il donnera sûrement des réponses peu pertinentes ou il laissera des questions sans réponse », ajoute-t-il. « À l’inverse, Genie attaque le problème par le bas. Le système comprend la traçabilité, la gouvernance, les flux de données. Et Genie fournit la couche de compréhension sémantique qui peut être nourrie par les utilisateurs ».

Pour l’instant, Genie est une interface no-code permettant à des data analysts de configurer un espace à partir d’un warehouse SQL serverless, des jeux de données (des tables, des colonnes et leurs descriptions) et des exemples de requêtes liés aux questions les plus récurrentes. La réponse peut être en langage naturel, en SQL ou sous forme de visuels. Si l’usager n’a pas les droits d’accès sur certaines données interrogées, il ne recevra tout simplement pas de réponse.

L’analytique traditionnelle, un enjeu économique

Databricks sait qu’il doit encore améliorer son application. La disponibilité en préversion devrait lui permettre de résoudre les problèmes les plus courants.  

L’éditeur sait aussi que ses clients ont déjà investi dans les plateformes BI de ses partenaires.

« Ce n’est pas disponible dans la v1, mais nous allons exposer les fonctionnalités de Genie aux outils de nos partenaires », promet Joel Minnick.

Les fonctionnalités enregistrées dans Unity Catalog pourront, a priori, être appelées depuis les outils BI ou leur copilot respectif. De son côté, Qlik a déjà a annoncé qu’il prendrait en charge des fonctionnalités IA spécifiques au warehouse SQL de Databricks. Celles-ci permettent d’analyser des sentiments, d’extraire des entités nommées, de masquer des données, de les classifier, de les corriger, etc. Disponibles actuellement en préversion publique, ces fonctions sont motorisées par le modèle Mixtral 8X7B Instruct. Il est également possible d’utiliser d’autres fonctions pour appeler le modèle de son choix à partir d’une requête SQL. Snowflake propose des capacités similaires réunies sous l’appellation « LLM Functions ».

Même s’il marche sur des œufs, Databricks ne s’attaque pas à ce problème sans raison. Selon les chiffres présentés par l’entreprise, près de 7 000 clients sur 12 000 déploient ses warehouses SQL en production. Cela lui aurait rapporté 400 millions de dollars de revenu récurrent annuel l’année dernière. Les investissements qu’il a effectués en matière de performance (le démarrage d’un warehouse SQL serait sept fois plus rapide qu’à son lancement il y a quatre ans) laissent à penser qu’il a trouvé un moyen pour prendre des parts de marché à BigQuery et à Snowflake.

« Les dirigeants doivent toujours se rappeler les origines des éditeurs », déclare Holger Mueller, analyste chez Constellation Research, dans un billet de blog.

« Snowflake vient du monde du data warehouse et a su prouver qu’il pouvait l’adapter à l’élasticité du cloud. Une grande part du succès de Snowflake provient de la familiarité de l’entreposage de données », explique-t-il. « Databricks provient du monde du big data et du cloud dans un modèle moins familier pour les dirigeants. Si Snowflake arrive à fournir suffisamment de fonctionnalités Lakehouse dans un avenir proche, il l’emportera comme il l’a fait sur l’aspect transactionnel. Si Snowflake ralentit ou trébuche, Databricks l’emportera, car il maîtrise déjà le défi de la gestion de grands volumes de données non structurées ».

Pour approfondir sur IA appliquée, GenAI, IA infusée

Close