Genie One : Databricks lance une ontologie automatisée pour ses agents IA

Le « coworker » de Databricks bénéficie d’un système d’indexation automatique des connaissances en entreprise, destiné à améliorer la précision des agents IA. Son adversaire, Snowflake, vient également d’annoncer un mécanisme similaire.

Lors de sa conférence annuelle Data +AI Summit à San Francisco du 15 au 18 juin, Databricks a annoncé l’extension de Genie One. Il s’agit à la fois d’une interface et d’un agent IA accessible par tous les utilisateurs de la plateforme.

Les usagers de la plateforme connaissent cette interface. Lancée initialement sous l’appellation AI/BI, elle a été rebaptisée Databricks One en juin 2025 lors de son intégration avec l’assistant IA Genie. Le nom Genie One est apparu en janvier 2026, lors de sa disponibilité générale.

Par défaut, Genie One permet de voir et d’interagir avec des tableaux de bord créés avec un agent Genie ou par des humains, de poser des questions en langage naturel et d’utiliser des applications Databricks Apps.

Or, Databricks One, comme AI/BI avant lui, était cantonné à un espace de travail spécifique. Une option permet désormais d’utiliser Genie One à l’échelle d’un compte. Ainsi, l’assistant « voit » l’ensemble des espaces de travail auxquels l’usager a accès.

Genie One s’appuie sur la fédération des lakehouse et Lakeflow Connect pour se connecter aux outils du marché (dont Gmail, Slack, Teams) pour y extraire des données. Une cinquantaine de connecteurs seraient disponibles. Il faut aussi compter sur la compatibilité avec les serveurs MCP du marché. À l’inverse, Genie One est un serveur MCP pour les agents IA tiers.

Genie Ontology : une ontologie automatisée

Mais la grande annonce de Data+AI Summit est la préversion publique de Genie Ontology. « Genie One crée et met désormais automatiquement à jour une cartographie de votre entreprise en extrayant et en classant les informations provenant de sources telles que les tableaux de bord, les carnets de notes et les pipelines, ce qui améliore la précision des réponses et réduit les délais de réponse », explique Databricks dans sa documentation.

Ces extraits de connaissances (appelés « snippets ») incluent des définitions de métriques, des sources d’autorité et des règles métiers. Outre le fait que ces informations sont extraites automatiquement, Databricks introduit un algorithme de classification. OntoRank est chargé de donner un « score d’autorité » aux sources et de nourrir un index.

« Lorsque vous posez une question, Genie One classe les extraits les plus pertinents, résout les conflits et répond en s’appuyant uniquement sur les sources que vous êtes autorisé à consulter », lit-on dans la documentation. « Cela permet d’obtenir des réponses plus précises et de réduire la latence, car Genie One a moins de données à parcourir et à interroger ». Les snippets ou extraits sont liés à l’Unity Catalog et héritent des permissions.

L’index de Genie Ontology ne contient pas uniquement des données, les relations entre elles, mais également du code et des documents ainsi que la fréquence d’accès aux ressources.

« C’est la pièce manquante du puzzle pour ouvrir le contexte aux agents IA », considère Ali Ghodsi, cofondateur et CEO de Databricks. « C’est une sorte de PageRank de Google, mais pour les entreprises », résume-t-il. PageRank est l’algorithme d’analyse des liens servant à classer l’ordre des pages Web sur Google.

Les limites de l’automatisation

En revanche, dans les cas où différentes entités dans une entreprise n’ont pas les mêmes définitions ou la même signification pour certaines métriques, il faudra demander à Genie One d’utiliser d’autres sources de données.

« Vous pouvez tenter d’obtenir la réponse à votre question dans une approche que j’appellerais “zero shot” », déclare Craig Wiley, vice-président des produits IA chez Databricks. L’expression zero shot renvoie à un test visant à obtenir la bonne réponse du premier coup, sans devoir guider un grand modèle de langage au cours d’une conversation. « Dans un second temps, vous pourriez charger des documents qui décrivent vos métriques et qu’OntoRank pourrait identifier comme importants. Mais ce ne sera pas forcément le cas à chaque tentative », précise-t-il.

 Genie One demeure un outil générique. Il intègre la catégorie des Coworker inventée par Anthropic. L’ontologie ne répond pas aux demandes les plus précises de tous les métiers comme prévoient de le faire de manière semi-automatique Starburst et Microsoft Azure avec Fabric.

Il y a tout de même un moyen d’obtenir des réponses plus précises si des sources de données entrent en conflit. À travers l’agent supervisor, Ali Ghodsi explique que Genie One peut être configuré en sélectionnant les espaces de travail (« Genie Spaces »), les outils, les requêtes SQL, les notebooks python et des instructions.

« Il convient de créer un agent Genie, et y inclure des descriptions très claires, puis créer un agent Genie distinct pour chacun des domaines métiers qui présentent des différences avec des instructions et des références SQL distinctes, etc. », confirme Craig Wiley.

À noter que les « Genie Spaces », c’est-à-dire des espaces de travail configurés pour répondre à certaines questions, évoluent. Désormais nommés, Genie Agents, ils permettent d’utiliser des serveurs MCP, des documents et des skills.

Ontologie automatisée : Snowflake est également de la partie

Genie ontology pourrait à l’avenir prendre en charge les notions de domaines et de sous-domaines métiers. « Cette fonctionnalité n’est disponible publiquement que depuis quelques heures. Nous avons beaucoup à apprendre », reconnaît le vice-président des produits IA.

Cependant, Craig Wiley estime que Genie Ontology a déjà un avantage : elle est pensée d’abord pour les agents IA, pas pour les humains.

« Tous les autres systèmes d’ontologie sur le marché réclament que les humains les créent. Le nôtre permet aux agents IA de déterminer l’ontologie pour l’entreprise », compare-t-il. « Avec le temps, je fais l’hypothèse que la couche de données pourrait être elle-même définie par les agents IA ».

Snowflake a aussi annoncé l’arrivée prochaine en préversion privée de Cortex Sense. Le concurrent mise également sur l’automatisation des ontologies. Mais lui a déjà prévu de prendre en charge les domaines métiers sous l’égide de sa couche de gouvernance Horizon.

Chez Databricks, les données doivent être obligatoirement enregistrées au sein d’Unity Catalog pour qu’OntoRank les indexe. « Utiliser Databricks sans Unity Catalog, c’est comme acheter une Ferrari et ne jamais dépasser les 50 km/h », illustre un porte-parole de Databricks sur le stand consacré de Genie One. Plus de 14 000 des 20 000 clients de Databricks utilisent la couche de gouvernance de données et d’IA de Databricks.

Par ailleurs, elle inclut en bêta Unity AI Gateway. La passerelle permet de définir des politiques de sécurité pour des agents, des API d’inférence, des serveurs MCP ou des agents IA de programmation. Elle dispose de garde-fous en matière de données sensibles, de jailbreak, d’hallucinations ou tout autre élément ajouté par les administrateurs.

 « Si vous le souhaitez, depuis l’espace admin de Genie One, vous pouvez aussi mettre en place des évaluations », complète Ali Ghodsi. « Il s’agit de fonctionnalités plus avancées, mais certains clients, même s’ils en sont encore à leurs débuts, souhaitent en disposer », remarque-t-il. « Par exemple, ils veulent savoir dans quelle mesure le système a bien répondu aux questions sur un sujet spécifique. Ils veulent observer l’évolution dans le temps. Est-ce que les réponses se détériorent soudainement sur certaines questions ou s’améliorent sur d’autres ? Et ils souhaitent orienter le système en conséquence ».

Unity Catalog et Unity AI Gateway, piliers de la gouvernance

Unity AI Gateway peut aussi servir à évaluer les coûts des LLM hébergés par Databricks ou d’autres fournisseurs. Une interface affiche le coût quotidien, hebdomadaire ou mensuel relatif à l’usage de différentes API. Pour les modèles externes à sa plateforme, l’éditeur s’en tient pour le moment à référencer le coût des tokens en entrée, en sortie et une fois mis en cache. À partir de là, les administrateurs fixent des seuils d’alerte. Selon un autre porte-parole de Databricks, certains clients ont pu se faire surprendre. L’un d’entre eux aurait payé une facture à six chiffres à cause d’une boucle agentique infinie exécutée tout un weekend.

Or, concernant Genie One, les clients n’ont pas le luxe de choisir le modèle sous-jacent. Databricks a mis en place un orchestrateur capable de sélectionner le bon LLM suivant la tâche à effectuer. Outre les éventuels sujets de dépendance, difficile en principe, d’en maîtriser les coûts.

Le CEO de Databricks rappelle qu’il est possible de configurer des budgets à partager au niveau d’une équipe ou par individu. Aussi, l’apport du bon contexte à travers Genie Ontology permettrait de réduire jusqu’à 80 % des coûts en comparaison d’autres interfaces agentiques équipées de serveurs MCP. Snowflake a tenu le même discours lors de sa conférence annuelle du 1er au 4 juin 2026 à propos de Snowflake Cowork, ex-Snowflake Intelligence.

Genie Code et ZeroOps complètent l’arsenal

Outre l’assistant générique Genie One et les « Genie Agents », Databricks a présenté deux autres agents spécialisés.

D’abord, Genie Code, en préversion publique, est « un équivalent de Claude Code pour les tâches d’ingénierie de données et de data science », résume Ali Ghodsi. Il permet de créer des pipelines Lakeflow et des pipelines déclaratifs. Genie Code propose par ailleurs des brouillons de notebooks pour explorer des données et entraîner des modèles de machine learning. Tout comme il « comprend, débug et améliorer des applications de GenAI », affirme Databricks. Selon Shridar Ramaswamy, CEO de Snowflake, les assistants CoCo et Snowflake CoWork disposent des mêmes avantages. Ils sont par ailleurs formés à Apache Airflow et dbt. Databricks a uniquement mentionné ses technologies de transformation de données.

Ensuite, Genie ZeroOps sera « prochainement en préversion privée ». « L’un des problèmes les plus complexes à résoudre est de s’assurer que les données sont toujours actualisées et cohérentes afin d’éviter les décalages dans les tableaux de bord », introduit Ali Ghodsi. « ZeroOps doit réduire cette charge opérationnelle à zéro. Il fonctionne automatiquement en arrière-plan, détecte les pannes, les résout, et intègre également une intervention humaine afin que vous puissiez vérifier son fonctionnement et vous assurer qu’il n’effectue pas d’actions inattendues en production ». Snowflake n’a pas présenté d’équivalent.

L’outil devra encore faire ses preuves. Genie Code est déjà utilisé par des dizaines de milliers d’utilisateurs, selon les dires de Craig Wiley.

Selon Kevin Petrie, analyste chez BARC US, les outils de gouvernance et de contrôle de l’IA sont les bienvenus, notamment Unity AI Gateway. Néanmoins, il observe sur LinkedIn que les clients de Databricks ont encore de « gros écarts à combler », principalement en matière de gouvernance de données non structurées. Un peu plus de la moitié (57 %) de la trentaine d’entreprises clientes de Databricks interrogées récemment par Barc US a activé l’ensemble des fonctionnalités de la plateforme en la matière. Les clients de Snowflake seraient légèrement en avance (64 %).  

« La mise en qualité et le contrôle des données sont des efforts préalables », souligne le porte-parole rencontré sur le stand de Genie One. « Nous et nos partenaires accompagnons les clients dans ce voyage ».

Crédits photo : Ali Ghodsi, cofondateur et CEO de Databricks, Gaétan Raoul pour LeMagIT

Pour approfondir sur IA appliquée, GenAI, IA infusée