ra2 studio - stock.adobe.com

La virtualisation de données bouscule le marché de l’intégration

Le spécialiste de la virtualisation des données Denodo gonfle les fonctionnalités disponibles dans sa plateforme et changerait de statut par la même occasion, selon les analystes. Le marché de l’intégration de données doit s’adapter aux changements de paradigme IT et à l’évolution des besoins des entreprises.

par

Gaétan Raoul, LeMagIT

Publié le: 02 oct. 2020

Au cours de l’été, Denodo a annoncé la mise à jour de sa plateforme logicielle d’intégration et d’accès en temps réel à des « sources de données hétérogènes, dispersées, structurées ou non structurées ». Cette version 8.0 introduit la possibilité de réaliser des intégrations de données hybride et multicloud grâce à une automatisation « style PaaS ».

L’éditeur propose notamment un déploiement automatisé sur des instances EC2 d’AWS et une version containérisée de sa plateforme. La plateforme est également disponible à la demande sur les places de marché de Google, AWS et Microsoft Azure.

Des optimisations et une nouvelle interface

Dans cette logique d’intégration des données, l’éditeur affirme avoir amélioré les API et des microservices, notamment par le support de GraphQL. Les utilisateurs ont alors la possibilité d’exécuter des requêtes au-dessus du modèle de données virtuel de la plateforme sans écrire une ligne de code. Denodo a dépassé la barre des 150 connecteurs. La plateforme permet maintenant d’intégrer des données depuis Databricks Delta, Azure Synapse, Google BigQuery, Amazon S3, ADLS et Google Cloud Storage.

Denodo a travaillé pour réduire le temps de réponse des requêtes. « Dans les environnements analytiques, la plupart des requêtes impliquent la combinaison d’une ou plusieurs tables avec une ou plusieurs dimensions pour ensuite y appliquer un calcul d’agrégation », peut-on lire dans la documentation de l’éditeur.

Denodo améliore donc son optimiseur de requêtes en intégrant une nouvelle vue (table) nommée « résumé ». Ces résumés stockent des résultats intermédiaires communs, que l’optimiseur utilise pour accélérer les requêtes. Avec cette option, il n’est pas nécessaire de créer une nouvelle vue pour mettre en cache un jeu de données. L’optimiseur analyse automatiquement les requêtes entrantes afin de savoir s’il peut « tirer parti des données des résumés ». Cette méthode fournit également une forme de data lineage d’une vue.

Au cœur du produit, une méta base de données

Au cœur de la plateforme Denodo, il y a ce que l’éditeur appelle une « base de données virtuelle » (lui-même utilise les guillemets). C’est Virtual DataPort qui joue ce rôle. Ce composant donne une vue unifiée des données présentes dans les systèmes connectés et embarque la base de données Apache Derby, des wrappers (des scripts d’extractions de données et plus dans certains cas) et un module de cache. Un langage type SQL (Virtual Query Language ou VQL) permet d’interroger les vues des données structurées ou non pour créer des jonctions, des fédérations, des groupes, etc.

Denodo recommande toutefois d’utiliser l’outil d’administration qui abstrait ce moteur de requêtes. L’accès peut être en temps réel ou non avec un système de cache. Les données transactionnelles sont possiblement mises à jour avec des opérations INSERT/UPDATE/DELETE.

Denodo a associé à Virtual DataPort un data catalog interne propulsé au machine learning dans le but de faciliter l’accès aux jeux de données consommables. Par ailleurs, ce catalogue reposait auparavant sur la base de données Apache Derby. Il est maintenant possible de stocker les métadonnées et les catégories déclaratives (créées par les utilisateurs) sur un SGBD externe.

À des fins d’analyse, l’ajout des notebooks Apache Zeppelin permet de visualiser, d’explorer les données et de les partager entre data scientists. L’outil aide à combiner des requêtes, des scripts, du texte et des graphiques.

Par ailleurs, l’Interface utilisateur accessible depuis un SSO (avec des modules SAML, Kerberos, Oauth et authentification double facteur) doit fournir une meilleure intégration des différents outils.

« Nous venons en complément des ETL parce qu’il y a toujours besoin de répliquer certaines données, mais la virtualisation est utilisée pour la plupart des sources de données modernes ».

Olivier TijouRegional VP France, Belux, Suisse francophone, Russie et Afrique, Denodo

« Nous venons nous placer au-dessus des sources de données du client en offrant une porte d’accès unique, ce qui permet de décorréler les transitions technologies de l’IT, des métiers qui utilisent des outils BI ou de data science. De même, cela permet de mettre en relation les sources de données avec les applications qui les consomment », vante Olivier Tijou Regional VP France, Belux, Suisse francophone, Russie et Afrique, chez Denodo.

De la sorte, les étapes d’extraction, de transformation et de chargement des données seraient simplifiées pour les analystes (et moins coûteuses pour l’entreprise) puisqu’il n’y a plus besoin en principe de répliquer les données avant de les analyser.

« Nous venons en complément des ETL parce qu’il y a toujours besoin de répliquer certaines données, mais la virtualisation de données est utilisée pour la plupart des sources de données modernes, souvent accolées aux systèmes de gestion d’API », précise le responsable. « Cet accès à la plupart des sources de données permet à nos clients, notamment les banques, de reprendre la main sur la gouvernance et la conformité, car aujourd’hui c’est très compliqué pour eux », ajoute-t-il.

Le marché de l’intégration de données en pleine transformation

C’est justement parce que ce type d’usage s’intensifie chez les clients de Denodo que les analystes adaptent leurs perceptions de l’éditeur basé à Palo Alto.

« Denodo est connue pour la virtualisation de données et, au fil des ans, la société est également devenue un fournisseur de data fabric », écrit dans un rapport Noel Yuhanna, vice-président et analyste principal chez Forrester Research. « La solution de structure de données de Denodo intègre des composantes clés en matière de gestion de données, y compris l’intégration, l’ingestion, la transformation, la gouvernance et la sécurité desdites données », ajoute-t-il.

Dans son Magic Quadrant 2020 dédié à l’intégration de données, Gartner voit la data virtualization comme une brique que les éditeurs doivent proposer à leurs clients. (Le Gartner signale également que la version 8.0 de la plateforme Denodo doit corriger des défauts de gestion de déploiement et d’intégration avec certains outils analytiques.)

Alors, virtualisation ou data fabric ? Ces chevauchements de concepts brandis par les cabinets d’analyse peuvent porter à confusion.

« Il y a un positionnement qui n’est pas toujours bien compris et qui peut porter à confusion », concède Olivier Tijou. « Le Magic Quadrant du Gartner pose une architecture de référence de la virtualisation/fédération de données. Elle se place par-dessus des blocs de stockage ou de traitement de données. Il s’agit avant tout de fédérer des données éclatées à travers les SI des entreprises, mais il est possible de les enrichir, de les anonymiser, par exemple ».

Les géants du cloud sont conscients de ce phénomène. Certains comme AWS proposent de la fédération de requêtes à travers leurs propres services (Federated Query depuis RedShift), d’autres comme Google Cloud ciblent de la fédération multicloud (BigQuery Omni). D’autres comme Microsoft Azure ou Snowflake suivent cette tendance.

« Les fournisseurs de cloud ont d’abord l’ambition de stocker chez eux les données des clients. Ce n’est pas notre objectif », rétorque Olivier Tijou. « Il y a eu la même tendance avec le lac de données qui est un phénomène sur le déclin ».

Le responsable évoque la tendance des entreprises à vouloir placer toutes les données dans un data lake unique généralement basé sur le framework Hadoop. « Les entreprises n’ont pas réussi à y mettre toutes leurs données et cela prend beaucoup de temps. Quelque part, l’éléphant a pris du plomb dans l’aile », considère-t-il, dans un langage imagé.

« Quelque part, l'éléphant a pris du plomb dans l'aile ».

Olivier Tijou Regional VP France, Belux, Suisse francophone, Russie et Afrique, Denodo

« Cela ne veut pas dire que le concept de data lake ou que la distribution Hadoop n’ont pas d’intérêt, mais on a voulu trop en faire. Et, en un sens, les géants du cloud et certains fournisseurs essayent de reproduire ce phénomène ».

« [La fédération de données offertes par les services des fournisseurs de cloud] reste limitée par rapport à ce que nous proposons. Chez nos grands clients, il n’y a pas qu’un seul gagnant. Par exemple, un grand compte spécialiste de l’agroalimentaire utilise les services de deux mastodontes et il y a besoin de fédérer des données entre les deux. L’approche de la virtualisation de données a sa place dans ce contexte », ajoute-t-il.

Finalement, l’offre de Denodo est plus souvent comparée aux fonctionnalités offertes par des acteurs comme Talend, TIBCO ou Informatica qui, eux, cherchent à mêler virtualisation et les méthodes de réplications, plus classiques.

Denodo compte 800 clients dans le monde. En France, l’éditeur a convaincu LVMH, Suez, Sanofi ou encore Rexel, ainsi que certaines banques et certains laboratoires pharmaceutiques. En Europe, la référence la plus notable est sans doute la Commission européenne.

La virtualisation de données bouscule le marché de l’intégration

Des optimisations et une nouvelle interface

Au cœur du produit, une méta base de données

Le marché de l’intégration de données en pleine transformation

Pour approfondir sur MDM - Gouvernance - Qualité

Data Marketplace, IA générative, « data as code » : Denodo se met à la page

Data Fabric : les six éditeurs recommandés par les analystes

Virtualisation de données : Denodo en quête de simplification

BPCE enrichit sa plateforme Data avec un moteur MPP