sarayut_sy - stock.adobe.com

Collibra dévoile une feuille de route particulièrement dense

Cette semaine, Collibra a présenté sa feuille de route aux clients français s’étant déplacés lors de son événement Data Citizens Paris. L’éditeur belge se prépare à faire évoluer son offre en profondeur.

Le spécialiste de la gouvernance des données s’intéresse depuis quelques années à d’autres domaines, dont la qualité des données, le data cataloging, la gestion de confidentialité et le data lineage. Il entend rassembler l’ensemble de ces capacités dans une seule plateforme. S’il propose de longue date des déclinaisons sur site de ses produits, c’est bien dans le cloud que Collibra mesure sa plus forte croissance avec sa solution Data Intelligent Cloud.

En outre, l’éditeur sait très bien que c’est à la faveur de la norme BCBS 239 que son activité a crû auprès des services financiers. Puis, il y a eu l’application du RGPD et de différentes réglementations qui imposent une forme de contrôle sur les données dont une organisation dispose. Maintenant que les institutions bancaires et les entreprises ont les mécanismes de gestion pour certaines données, elles souhaitent étendre le périmètre de la gouvernance, mais également soutenir la croissance des projets d’administration et d’analyse des données.

En ce sens, Collibra veut positionner sa plateforme comme « un système d’engagement » autour de la donnée, capable de simplifier la collaboration entre les spécialistes des traitements et les divers « propriétaires » des data sets.

Pour ce faire, l’éditeur se doit de poursuivre les intégrations avec les logiciels du marché. « Nous devons faire en sorte que ce soit très facile pour vous d’obtenir les bonnes métadonnées depuis les différentes sources de données dans votre entreprise », déclare Tom Dejonghe, Vice-président product operations chez Collibra, aux clients ayant fait le déplacement pour assister à Data Citizens Paris, le mardi 3 mai.

Toujours plus d’intégrations avec les services cloud

L’éditeur dénombre plus de 50 connecteurs certifiés d’ingestion de métadonnées. Dans un avenir proche, Collibra compte ajouter davantage de ponts vers les services des hyperscalers, à savoir Google Cloud, Microsoft Azure et AWS. En premier lieu, Collibra proposera de tirer des métadonnées depuis Azure Purview, Azure DataLake, Google Data Cataloging et Google cloud storage. Il souhaite également apporter des API vers les ETL/ELT AWS Glue, Fivetran, Google Cloud Data Fusion et Azure Data Factory, en sus de la prise en charge de Matillion annoncée en mars 2022.

Pour Collibra, améliorer ses capacités d’intégration de donnée ne consiste pas seulement à fournir des API vers les nouveaux produits du marché, mais aussi s’assurer de sa compatibilité avec les systèmes existants.

Ainsi, il prévoit d’ajouter des connecteurs vers les serveurs de reporting liés aux outils BI Microsoft SSRS, Power BI Reporting Servers et MicroStrategy.

« Nous avons compris que beaucoup d’entre vous utilisent encore MicroStrategy. Nous allons offrir une intégration avant la fin du mois de mai 2022 en bêta privée », avance Tom Dejonghe.

Au début du mois de mars, Collibra avait déjà renforcé les connexions possibles avec Tableau.

En plus des connecteurs natifs, des API, Collibra propose un SDK pour que les clients puissent développer les liaisons vers des systèmes maison ou des logiciels hautement personnalisés.

Qui dit plus de sources de données à gouverner dit davantage de risques de sécurité. Ainsi, Collibra veut conforter les mécanismes de sécurité d’un des composants de sa plateforme cloud : Edge. Il s’agit d’un cluster de serveurs Linux permettant d’accéder aux données et de les traiter au plus proche de leur localité, sur site et dans le cloud, derrière un pare-feu ou un VPN. Idéalement, seul le résultat des traitements opérés depuis un cluster Edge est retourné vers Collibra Data Intelligence Cloud. Or, comme la plupart des outils de data governance ou de data cataloging, Edge transmet des échantillons de données vers Collibra Cloud pour effectuer certains traitements. « Nous allons nous assurer que vous n’aurez plus à envoyer les échantillons vers notre plateforme cloud », promet Tom Dejonghe.

En outre, les authentifiants nécessaires pour se connecter à un cluster Edge sont stockés dans la plateforme cloud. Prochainement, Collibra stockera ces crédences derrière les firewalls de ses clients, « ce qui est beaucoup plus sûr », garantit le responsable.

Et comme ce composant réside derrière le pare-feu du client, c’est à lui de l’installer, de le maintenir et de le mettre à jour.

De fait, Collibra a dû récemment élever la version d’ArgoCD qu’il utilise pour implanter Edge, parce que le mécanisme de déploiement était sensible à une vulnérabilité signalée par le MITRE.

« À l’avenir, Edge se mettra à jour automatiquement », indique-t-il. Ce cluster sera disponible depuis les instances Kubernetes de GCP, Azure et AWS. Toutefois, l’éditeur souhaite donner le contrôle du calendrier de mise à jour de ce composant à ses clients.

« Metadata lake » : Collibra révise en profondeur son architecture de catalogage des données

Mais l’un des plus grands volets sur la feuille de route de Collibra porte pour l’instant un nom provisoire. L’éditeur estime qu’il doit améliorer son offre en matière de data cataloging, ce qui passera par l’élaboration d’un « metadata lake ». « C’est un nom interne ; si vous avez une meilleure idée en tête, n’hésitez pas à la partager avec nous », confie Tom Dejonghe.

« Nos plus gros clients comptent des millions, voire des milliards de métadonnées. Or, au départ, notre data catalog n’a pas été conçu pour supporter des volumes aussi importants ».
Tom DejongheVP Product Operations, Collibra

Accessible par certains clients triés sur le volet, ce lac de métadonnées doit résoudre les difficultés des plus gros utilisateurs du data catalog de Collibra. « Logiquement, plus vous avez de données, plus le volume de métadonnées à traiter augmente de manière exponentielle. Nos plus gros clients comptent des millions, voire des milliards de métadonnées. Or, au départ, notre data catalog n’a pas été conçu pour supporter des volumes aussi importants », reconnaît le dirigeant.

Ce metadata lake doit à la fois disposer d’une « structure allégée » et être capable de soutenir des volumes de métadonnées techniques toujours plus considérables.

Le lac de métadonnées doit devenir le socle du data catalog de Collibra et de sa future data marketplace.

Selon le responsable, il s’agit également de résoudre un problème d’expérience utilisateur.

Comme les métadonnées techniques seront séparées des métadonnées « critiques », qui ont toutes leurs places dans le data catalog existant de Collibra, les ingénieurs, les data stewards et les DPO devraient bénéficier de meilleures performances.

Aussi, cela doit faciliter le raffinage des métadonnées, à la manière de ce que propose Databricks pour les données dans sa plateforme de data science. « Cela permettra de pousser les informations importantes dans votre data catalog. Puis, les data stewards pourront y préparer des jeux de données certifiés, accessibles aux consommateurs de données depuis notre place de marché, qui doit reproduire une expérience d’achats en ligne », décrit Tom Dejonghe.

Ce metadata lake devrait être disponible en bêta publique limitée d’ici à la fin de l’année, tandis que la data marketplace devrait ouvrir en bêta publique en août 2022 avant son lancement officiel en novembre.

Collibra automatise les règles de qualité et de confidentialité des données

Dans ce contexte, assurer la gouvernance des données en provenance de différents systèmes ne suffit plus. Il est nécessaire d’apporter une meilleure gestion des règles de conformité. Ainsi, Collibra développe un moteur de règles de confidentialité. « Nous essayons d’aller plus loin en vous permettant de définir ces politiques, de les automatiser, puis de les pousser dans toutes vos sources de données », avance le directeur des opérations produits.

« Nous essayons d’aller plus loin en vous permettant de définir ces politiques, de les automatiser, puis de les pousser dans toutes vos sources de données ».
Tom DejongheVP, product operations, Collibra

De la sorte, les responsables de la conformité et de la confidentialité pourront établir qui a accès à quelles données en fonction des groupes d’utilisateurs. Dans un premier temps, Collibra entend proposer ce niveau de contrôle par jeu de données, puis par table. Mais comme il n’y a pas de standards pour apporter ce contrôle des accès, l’éditeur fournira cette capacité, une source de données après l’autre, en commençant par Snowflake, dès le mois de juin. « Une fois que nous aurons mis en place et prouvé la fiabilité de ce mécanisme, nous l’étendrons aux services de GCP, AWS et Azure », annonce Tom Dejonghe.

Ce raffinage des métadonnées et des données réclame inévitablement des fonctionnalités pour optimiser leur qualité. En 2021, la société belge a acquis la startup américaine OwlDQ, spécialisée dans la génération automatique de règles de qualité de données, dans la détection d’anomalies et dans la notation des jeux de données. « Nous avons un intérêt très important de nos clients, ce qui indique bien que les capacités de qualité des données étaient la pièce manquante du puzzle de notre offre », constate le responsable. Ces fonctionnalités seront accessibles prochainement depuis le composant Edge.

Enfin, l’éditeur met l’accent sur la refonte de son système de conception de workflows permettant de certifier les assets, d’appliquer des règles de conservation ou encore d’attribution de données. Les utilisateurs finaux, eux, auront accès à une UX revue et corrigée permettant d’obtenir des visualisations prébâties de la gestion des actifs.

Au vu de ce programme pour le moins chargé, Collibra se veut prudent : les dates de disponibilité sont communiquées à titre indicatif.

Pour approfondir sur MDM - Gouvernance - Qualité

Close