Databricks s’attaque à la précision et à la gouvernance de la GenAI

Des fonctionnalités telles que la gouvernance centralisée et la surveillance en temps réel des modèles visent à améliorer la précision des résultats, afin que les entreprises puissent en toute confiance dépasser le stade de l’expérimentation.

Databricks a dévoilé cette semaine un lot de nouvelles fonctionnalités ayant trait à la gouvernance, à la surveillance et à la mise en production de l’IA générative. La plupart sont en préversion publique ou en bêta.

Depuis l’avènement de ChatGPT à la fin de l’année 2022, l’IA générative a suscité des investissements notables de la part des entreprises qui y ont vu un moyen d’augmenter le niveau de productivité de leurs équipes.

Cependant, la précision des résultats des LLM est un sujet de préoccupation depuis l’essor de cette technologie. De fait, elle réclame un haut niveau de qualité de données. Même avec la plus grande précaution dans ce domaine, les hallucinations persistent.  

En outre, comme les modèles d’IA générative doivent accéder aux données propriétaires d’une organisation pour comprendre les opérations de cette dernière, la sécurité des données est un sujet de préoccupation.

Par conséquent, bien que les entreprises souhaitent généraliser l’utilisation de l’IA générative pour mieux informer les travailleurs et automatiser certains processus, nombre d’entre elles ne l’utilisent qu’à petite échelle pour des applications internes, selon Stephen Catanzano, analyste à l’Enterprise Strategy Group, une filiale d’Omdia.

Agents IA : les entreprises veulent passer à la vitesse supérieure

Par exemple, les entreprises déploient des chatbots qui assistent les employés, mais elles hésitent à déployer des agents capables de prendre en charge certaines tâches de manière autonome.

« La crainte des risques financiers et de réputation ainsi que les défis liés à l’intégration de la GenAI aux données de l’entreprise les retiennent de prendre des initiatives majeures. »
Stephen CatanzanoAnalyste, Enterprise Strategy Group, filiale d’Omdia

« Les entreprises utilisent principalement l’IA générative pour des cas d’usage interne à faible risque en raison de préoccupations liées à la précision, à la gouvernance et à la sécurité », note Stephen Catanzano. « La crainte des risques financiers et de réputation ainsi que les défis liés à l’intégration de la GenAI aux données de l’entreprise les retiennent de prendre des initiatives majeures. »

Auprès du MagIT, Naveen Rao, vice-président IA chez Databricks, confirme ces affirmations tout en les nuançant. Bien qu’imparfaites, les applications déployées par des clients comme Mastercard et Corning – des architectures RAG et d’autoremplissage d’informations – leur feraient gagner du temps. « Ce sont des cas d’usage ou l’on peut tolérer une certaine marge d’erreur, et dans lesquels l’humain demeure dans la boucle. C’est précisément dans ces domaines que l’on observe une adoption croissante », note-t-il.

« Faire fonctionner un système RAG nécessite de nombreux ajustements. […] Il y a de nombreux composants à prendre en compte. »
Naveen RaoVice-président IA, Databricks

À l’inverse, le dirigeant considère que la « disruption » des logiciels comptables par l’IA générative ou tout autre dispositif critique « n’est pas d’actualité ». « En comptabilité, une simple erreur de zéro ou de virgule peut poser de gros problèmes. Il faut une précision totale », lance-t-il.

Il y a toutefois un juste milieu à trouver, pour que les entreprises puissent développer des agents ayant accès à des données de manière plus ou moins autonome dans un cadre de confiance. D’autant que, malgré l’apparente simplicité des applications internes, elles demeurent complexes à déployer.

« En réalité, faire fonctionner un système RAG nécessite de nombreux ajustements », illustre Naveen Rao. « Il faut parfois optimiser le modèle d’embeddings, parfois affiner les rerankers. Il y a de nombreux composants à prendre en compte », signale-t-il. « Notre objectif est donc de faire en sorte que ces systèmes fonctionnent directement, sans effort, pour les entreprises dont l’IA n’est pas le cœur de métier ».

Un lot conséquent de fonctionnalités en préversion

Les annonces effectuées par Databricks introduisent les fonctionnalités suivantes :

  • La prise en charge de fournisseurs des LLM personnalisés dans Mosaic AI Gateway, désormais en préversion publique. Cette fonctionnalité permet aux clients de gérer tous leurs modèles d’IA dans un emplacement centralisé, qu’il s’agisse de modèles open weight ou propriétaires, peu importe où ils sont déployés.
  • Un répartiteur de charge pour rediriger le trafic automatiquement vers un LLM secondaire si le modèle principal est indisponible.
  • En préversion publique, Unity Catalog prend en charge les intégrations API afin de gérer de manière centralisée les accès des LLM aux outils (Azure AI Search, Slack, Google Calendar, etc.).
  • Lakehouse Monitoring for Agents, une fonctionnalité en phase de test bêta, qui déploie MLflow Tracing et des LLM-as-a-Judge afin de suivre les performances des agents d’IA.
  • Une API en préversion publique qui permet aux développeurs d’intégrer Genie, une interface conversationnelle facilitant l’interaction avec les données en langage naturel, dans des applications personnalisées et des plateformes de productivité.
  • Des capacités d’inférence par lots avec Mosaic AI Model Serving en une seule requête SQL pour traiter des données non structurées.
  • Mosaic AI Agent Evaluation est mis à jour afin d’intégrer des évaluations automatisées personnalisables des applications GenAI (en Python) avant et après leur déploiement.
  • Review App est couplé avec un SDK pour récupérer les traces applicatives depuis les tables Delta et Unity Catalog en vue de récupérer des feed-back des experts métiers.
  • Le SDK nommé plus haut doit permettre de rassembler des jeux de données d’évaluation.
  • Guidelines AI Judge (en préversion publique) est un dispositif pour créer des paires de questions-réponses afin de forcer les modèles à produire des résultats constants.

Chacune de ces fonctionnalités a été conçue avec un objectif précis, la gouvernance centralisée des modèles d’IA étant potentiellement la plus importante, selon Andy Thurai, analyste chez Constellation Research.

Gouvernance et évaluation des agents, deux principes clés

« Une gouvernance centralisée pour tous les modèles d’IA est une solution intéressante », déclare-t-il. « L’intégration et la gestion des modèles open weight et propriétaires en un seul endroit, ainsi que la possibilité de définir des politiques de gouvernance de manière centralisée, peuvent être attrayantes pour les grandes entreprises dont les entités décentralisées travaillent indépendamment sur les modèles d’IA et leur consommation. »

Par ailleurs, Andy Thurai ajoute que la surveillance en temps réel pourrait encourager une adoption accrue de l’IA générative en entreprise. Encore faut-il pouvoir les convaincre. « Presque tous les éditeurs de plateformes, tous les hyperscalers, tous les fournisseurs de modèles et de nombreuses startups s’efforcent de fournir des solutions similaires », rappelle-t-il. « Bien que Databricks ait une longueur d’avance avec sa plateforme de données, je ne suis pas sûr qu’ils convertiront complètement ceux qui ont des besoins d’IA d’entreprise ».

Stephen Catanzano souligne que les fonctionnalités mentionnées ci-dessus répondent à certaines préoccupations qui freinent l’adoption généralisée de l’IA générative dans les entreprises. Sans toutefois toutes les résoudre. Comme Andy Thurai, il met en avant Lakehouse Monitoring for Agents pour améliorer la précision, ainsi que les capacités du Mosaic AI Gateway unifiant la gouvernance des modèles d’IA. « Ces fonctionnalités répondent directement aux préoccupations essentielles des entreprises en matière de contrôle, de fiabilité et de conformité », avance-t-il.

« À mes yeux, un agent est un système capable de traiter des entrées vagues tout en exécutant correctement la tâche demandée. »
Naveen RaoVice-président IA, Databricks

« Notre cadre de gouvernance est extrêmement important », surenchérit Naveen Rao. « Vous pouvez exécuter un agent, qui dispose de droits d’accès spécifiques : il peut accéder à certaines données, mais pas à d’autres », assure-t-il. « Il doit être enregistré et surveillé, et potentiellement, il peut même modifier des données désormais ».

Mais le dirigeant met presque à pied d’égalité la gouvernance et l’évaluation des applications d’IA. « À mes yeux, un agent est un système capable de traiter des entrées vagues tout en exécutant correctement la tâche demandée », résume-t-il. Et de prendre l’exemple d’un voyageur qui souhaiterait réserver un billet d’avion. « Si je dis “réserve-moi un vol”, je ne suis pas en train de détailler chaque étape, comme ouvrir un onglet, aller sur un site web et cliquer sur un bouton », explicite-t-il.

 « Puisque la demande est floue, il faut mettre en place une évaluation pour s’assurer que la tâche est bien réalisée, même face à une distribution variée d’entrées ambiguës. C’est ainsi que je définirais la performance d’un agent ».

Databricks est conscient des manques à combler

Bien que ces nouvelles fonctionnalités répondent aux préoccupations des clients en matière de précision et de performance, Databricks pourrait encore améliorer ses capacités de développement et de gestion de l’IA, selon Stephen Catanzano.

Par exemple, le fine-tuning des modèles est un domaine où le fournisseur pourrait progresser. D’autres axes d’amélioration incluent le développement d’applications d’IA spécifiques à certains secteurs, le renforcement de l’explicabilité et de la détection des biais, ainsi que la mise en place d’une gestion automatisée du cycle de vie des agents d’IA.

« Ces avancées renforceraient encore la confiance des entreprises dans le déploiement de l’IA pour des applications critiques », considère Stephen Catanzano.

Selon Naveen Rao, Databricks prévoit d’ajouter des fonctionnalités supplémentaires visant à simplifier le développement, la gouvernance, le déploiement et l’évaluation des agents d’IA. Parmi celles-ci figurent des outils permettant de créer les agents capables de résoudre des problèmes spécifiques à un domaine.

La simplification du fine-tuning est également inscrite sur la feuille de route de l’éditeur. « Nous cherchons à abstraire toutes ces techniques de bas niveau liées au fine-tuning afin de livrer directement le résultat final et le code au client », évoque-t-il auprès du MagIT.

De son côté, Andy Thurai souligne que, bien que la suite de développement d’IA de Databricks soit solide par rapport à la concurrence, elle reste difficile à prendre en main.

« L’ergonomie et l’expérience utilisateur sont des plaintes récurrentes des clients de Databricks. »
Andy ThuraiAnalyste, Constellation Research

De plus, même si Databricks a ajouté de nombreuses fonctionnalités au cours des deux dernières années, l’entreprise pourrait proposer davantage d’intégrations pour permettre aux clients de personnaliser leur environnement de développement d’IA. « L’ergonomie et l’expérience utilisateur sont des plaintes récurrentes des clients de Databricks », observe l’analyste de Constellation Research. « [Databricks] pourrait également améliorer l’intégration avec plus d’outils tiers, comme les bases de données vectorielles, optimiser la gestion des charges de travail d’IA, proposer des analyses rapides et efficaces pour les environnements hybrides et améliorer la rentabilité ».

Naveen Rao, lui, défend la ligne historique de Databricks. Le Lakehouse doit être le hub central, la « seule source de vérité pour toutes les applications ». « Je pense que ce que vous verrez se produire, c’est que Databricks deviendra le lieu central où un agent pourra intégrer les données ERP avec d’autres données et accomplir quelque chose de vraiment utile pour l’entreprise », imagine-t-il.  

Quant à l’UI et l’UX, c’est à la fois une préoccupation pour Databricks qui n’a pas l’habitude de cibler des métiers, mais aussi l’avenir des solutions agentiques, d’après le vice-président IA.

« Je pense que les prochaines années vont être axées sur les interfaces utilisateurs (UI) », prédit Naveen Rao. « Les modèles sont devenus une commodité. […] Cela devient une question d’économie. […] En réalité, la manière de créer de la valeur et de construire une barrière concurrentielle réside dans l’UI, comment livrer cette capacité là où l’utilisateur en a besoin, et bien sûr, en la personnalisant également ».

Pour approfondir sur IA appliquée, GenAI, IA infusée