Natallia - stock.adobe.com

Data Marketplace, IA générative, « data as code » : Denodo se met à la page

Face aux fournisseurs de cloud et éditeurs de data warehouse cloud qui cherchent à centraliser l’ensemble des fonctionnalités de gestion de données, Denodo entend moderniser sa suite de data virtualization en adoptant les mêmes préceptes que ses coopétiteurs.

Avec sa version 9 présentée l’été dernier, l’éditeur californien avait insisté sur l’infusion de l’IA générative dans sa plateforme de virtualisation de données pour en simplifier l’usage. Sous le capot, il avait surtout renforcé les capacités de traitement de cette dernière en s’appuyant sur PrestoDB.

La version 9.2 de Denodo améliore son Data Catalog en y ajoutant des fonctionnalités de « Data Marketplace ». Plus précisément, l’éditeur a opéré une refonte de l’expérience utilisateur en vue de faciliter la recherche et l’accès à des tables, ainsi qu’à des produits de données.

Un data catalog plus proche d’une data marketplace interne

Entre autres, la page d’accueil, le résumé des éléments, la page de recherche et les résultats du Data Catalog ont été adaptés afin de proposer cette expérience. La page du Data Catalog affiche les jeux de données les plus utilisés, ainsi que des recommandations suggérées par l’assistant IA Denodo, si l’entreprise a souscrit à ce service optionnel.

Dans ce but, Denodo dit avoir étendu le lignage de données pour inclure les tableaux de bord créés avec Power BI et Tableau. L’ensemble des fonctionnalités modernisées dépendent d’une synchronisation entre le Data Catalog et le moteur de virtualisation Virtual DataPort.

Toutefois, ce catalogue semble réservé à des usages internes. Certains clients, dont l’assureur Covea, ont décidé de déployer des plateformes tierces pour couvrir des cas d’usage similaires. D’autant que les entreprises s’intéressent à des solutions capables de gérer des jeux ou des produits de données pour des besoins internes et externes. Les éditeurs de Datawarehouse cloud, dont Snowflake, Microsoft (Fabric), Google Cloud (BigQuery) et Databricks mettent en place des capacités similaires.

Guider le déploiement des RAG et des agents

 Du côté de l’IA générative, Denodo poursuit les mises à jour de son assistant. Motorisé par les API d’OpenAI et d’Amazon Bedrock (depuis la version 9.1), l’outil peut désormais suggérer des jointures de vues matérialisées de données, et il prend en charge des instructions supplémentaires en langage naturel afin d’améliorer les métadonnées d’une vue. En outre, l’éditeur a concocté plusieurs fonctions SQL qui appellent un LLM, afin de classer, enrichir, résumer, traduire des données, mais aussi analyser les sentiments.

Dans cette deuxième phase de développement, il met surtout en avant son AI SDK conçu pour intégrer la plateforme Denodo avec des applications d’IA générative, à commencer par les architectures RAG. Cet AI SDK prend en charge les API de Mistral, de DeepSeek, de SambaNova, Google AI Studio, et Nvidia NIM. Il était déjà compatible avec Ollama, Anthropic, Groq, Bedrock, OpenAI, Azure OpenAI, OpenRouter et Google Vertex AI.

Denodo présente sa plateforme comme la couche d’orchestration des accès aux données d’entreprise. Ici, l’éditeur suggère à ses clients de s’appuyer sur son mécanisme de gestion des rôles et des accès, en sus de sa gouvernance des métadonnées, afin d’accélérer le déploiement d’architectures RAG. Les chatbots ou les agents qui en découlent peuvent générer des requêtes SQL.

Le SDK doit permettre de configurer la sélection des bases de données sources et les tables depuis Virtual DataPort, ainsi que les métadonnées à vectoriser. Les développeurs peuvent choisir le LLM qui répondra aux questions des utilisateurs, ainsi que le modèle d’embeddings en sus de la base de données vectorielle (Chroma, PostgreSQL avec PGVector ou OpenSearch) compatible avec LangChain. Le SDK contient également une interface personnalisable. Sur sa page GitHub, l’éditeur fournit un benchmark permettant d’identifier les modèles les plus performants dans son contexte en prenant en compte leur précision, le temps d’exécution et le coût à la requête.

Bien que guidée, la mise en place de ces architectures RAG s’appuyant sur Denodo demande encore un développement spécifique.

Des gains de performances et une meilleure prise en charge des formats de table open source

Mais la plupart des clients seront plus intéressés par les améliorations de performance apportées au moteur de traitement massivement parallèle basé sur PrestoDB. De fait, c’est le grand défaut de la virtualisation de données. Elle a pour avantage une forme d’agnosticité avec les sources de données au détriment d’une gestion de la performance plus complexe. Précisons qu’en décembre 2024, Gartner reprochait à l’éditeur la difficile gestion des déploiements distribués. En ce sens, Denodo assure avoir optimisé les coûts des sous-requêtes, accéléré la lecture des fichiers Parquet vectorisés et la mise en cache des métadonnées à l’aide de Presto et de la suite Alluxio.

L’éditeur affirme avoir considérablement accéléré la transmission de format Arrow de sa plateforme vers Snowflake, comme il avait fait avec BigQuery avec la 9.1. Denodo répondrait là à une demande des ingénieurs de données et data scientists utilisant le framework ArrowFlight.

Denodo introduit toutefois un mécanisme pour protéger les données les plus sensibles. Par défaut, Virtual DataPort peut déplacer automatiquement des données d’une source à une autre si cela accélère les opérations. « Les administrateurs peuvent désormais limiter ces mouvements de données afin d’appliquer les exigences de sécurité des organisations qui ne doivent pas déplacer des données d’une région à l’autre », précise-t-il. En parallèle, il est possible de configurer des coffres pour les clés de chiffrement par base de données, et non plus appliquer la configuration globale à l’ensemble des ressources.

L’éditeur poursuit, sans surprise, la prise en charge des formats de table ouverts en ajoutant UniForm, un format permettant de traiter des tables Delta, Hudi et Iceberg au sein de Delta Lake. Denodo améliore aussi la prise en charge du catalogue de métadonnées des tables Delta et Iceberg, Unity Catalog, ainsi que la version managée d’Apache Polaris chez Snowflake (Snowflake Open Catalog).

Denodo rejoint la mouvance « data as code »

Enfin, Denodo entend s’inscrire dans la mouvance « data as code », comme le fait déjà Snowflake, Databricks ou Dremio. La version 9.2 introduit des « workspaces », des environnements isolés au sein d’un serveur Denodo, permettant de développer des produits de données comme des applications, en reprenant les fonctions et les méthodologies associées aux systèmes de gestion de versions et aux flux CI/CD.

« Créer un espace de travail équivaut à créer une branche Git dans un projet de logiciel », explique l’éditeur dans sa documentation. « Il s’agit d’apporter des modifications à son propre espace de travail sans affecter les autres. Les modifications des autres workspaces ne les affectent pas non plus », poursuit-il. « Une fois les modifications terminées, les utilisateurs peuvent les pousser vers le dépôt et fusionner les modifications de cette branche avec la branche principale ».

Le planificateur de tâches (Scheduler), lui, peut gérer la réplication des dépendances des tables. Plus précisément, le Scheduler prend en charge l’orchestration des tâches basée sur les graphes acycliques (DAG). « Ceci est particulièrement utile lors de la gestion des zones de curation dans les entrepôts de données ou lors de l’implémentation de stratégies de mise en cache », relate l’éditeur. Dans le document, les jobs DAG sont présentés uniquement comme le fait de rafraîchir le cache des vues et des « résumés ».

Pour approfondir sur Middleware et intégration de données