alphaspirit - Fotolia

Analytique : Google ajoute des briques de gouvernance à sa plateforme modulaire

La semaine dernière, Google enchaînait sa conférence IO par son Data Cloud Summit. Au cœur de cet événement réside l’annonce de trois produits analytiques et de traitements de données, disponibles en préversion. Le géant du cloud ajoute deux Control planes pour l’échange et la gouvernance de données par-dessus un ensemble de services managés.

Tout d’abord, Analytics Hub doit, selon Google Cloud, faciliter le partage sécurisé d’actifs analytiques – temps réel ou non – en créant un portail recueillant les data sets, les modèles de machine learning, des templates Looker, les librairies d’outils internes et externes employés par les organisations. Cette interface s’appuie sans surprise sur le datawarehouse cloud BigQuery. De la sorte, le géant du cloud compte réduire la réplication des données.

Analytics Hub est une instance privée connectée à deux instances BigQuery, à minima, disposant chacune de leur VPC, l’une pour les éditeurs et l’autre pour les abonnés à des Exchanges, les fameux actifs analytiques. Les éditeurs définissent les règles de partage des collections de vues et de tables de sorte que les abonnés ne peuvent lire seulement les données autorisées depuis des outils comme Looker, Databricks, Vertex AI, Trifacta, Tableau, Microstrategy, ToughtSpot ou Qlik. Les abonnés peuvent combiner les données partagées avec leurs ressources en interne. Google y joint ses propres outils ainsi que la possibilité de charger des ensembles de données (216 à l’heure d’écrire ces lignes) publics, et privés via des partenaires.

Les éditeurs peuvent ajouter des métadonnées et suivre les usages des entités autorisées à manipuler les données de l’instance « Suscriber ». Les « publishers » paient le stockage de données, tandis que les « suscribers » s’acquittent des requêtes effectuées depuis Analytics Hub.

En soi, ce produit en préversion est un add-on aux capacités de partage déjà présentes dans BigQuery. Pour autant, cette approche convainc certains analystes, surtout quand il s’agit de partager des tableaux de bord ou des modèles de machine learning.

Deux Control planes, un pour l’échange et l’autre pour la gouvernance des données

« Analytics Hub est incroyablement puissant pour moi », assure Mike Leone, analyste chez Enterprise Strategy Group (ESG) [N.D.R. Propriété de Techtarget, également propriétaire du MagIT]. « Nous avons assisté à l’essor des échanges de données, qui mettent à la disposition d’autres personnes des données très précises. Analytics Hub va encore plus loin en offrant un échange de données analytiques. Permettre aux utilisateurs [de partager] des tableaux de bord dynamiques ou des modèles ML préentraînés contribuera grandement à l’accélération des initiatives en matière de données et des investissements analytiques. »

Dans cette même volonté de fournir une maîtrise des données, Google Cloud a présenté Dataplex. Cette fois-ci, il s’agit de proposer un environnement pour automatiser la gestion, la qualité et la gouvernance des données. Le géant du cloud entend offrir « un contrôle consistant » des données à travers les data lakes, des data warehouses et des data marts, « sans les déplacer ni les dupliquer ».

Analytique intégrée, exécution de requêtes ou de scripts Spark, SparkSQL et BigQuery, accès aux notebooks, intégration avec Dataflow et Data fusion, de contrôle de qualité, de surveillance et classification automatisés… Dataplex est un pot-pourri de technologies Google et open source au service d’une forme de gouvernance.

Pour l’instant, l’aspect distribué de la chose demeure limité à Google Cloud Storage et BigQuery, mais le fournisseur entend prendre en charge d’autres sources de données « prochainement ». Dataplex est pensé comme une gare de triage par-dessus une architecture de données permettant, de classer les données dans des zones que Google a nommées Landing Zone (pour les données brutes), Structured Zone (pour les données préparées), et Refined Zone (pour les données analysées). Pour autant, ce data catalog intelligent ne remplace pas les produits du marché et s’intègre avec Collibra, Starbust, ou encore Trifacta.

DataStream, lui, porte un nom trompeur. Il ne s’agit pas d’un service de streaming analytics, contrairement à Dataflow qui sera bientôt disponible. DataStream est un outil de Change Data Capture (CDC) et de réplication de données depuis des SGBD Oracle et MySQL pour l’instant, PostgreSQL et SQL Server, après. Steward Bond, analyste chez IDC explique auprès de SearchDataManagement [N.D.R. Propriété de Techtarget, également propriétaire du MagIT] que le service vise avant tout à superviser des logs en provenance de bases de données sources, afin de détecter les changements des données transmises vers le data warehouse BigQuery, ainsi que les bases de données Cloud SQL et Cloud Spanner.

« La capture des modifications de données, basée sur les logs, est une méthode non invasive utilisée depuis de nombreuses années dans les bases de données », rappelle Steward Bond. « Cela signifie qu’il n’y a pas d’impact de requête sur la base de données source, pas de procédures stockées ou de déclencheurs à écrire, et pas de tables fantômes à gérer. »

La chaîne de supermarché américaine Schnuks a déjà pu tester le service managé pour maintenir la cohérence entre des données issues d’un SGBD Oracle on-prem avec celles stockées sur BigQuery, et ce en temps réel, « de manière sécurisée par un hôte Bastion via un VPC ».

Le développement de ce service est chapeauté par Andy Gutmans, vice-président de l’ingénierie des bases de données chez GCP, et accessoirement l’une des têtes de pont de la fronde contre Elastic avant son départ de chez AWS. Le responsable a précisé à la presse que DataStream s’appuie sur des capacités serverless pour soutenir l’élasticité des opérations. Il affirme également que le service est idéal pour migrer ou répliquer des données vers les SGBD de Google Cloud.

Une plateforme unifiée… à monter soi-même

L’on notera quelques annonces supplémentaires concernant la disponibilité de Looker for Microsoft Azure, et de BigQuery ML Anomaly, une capacité de détection automatique d’anomalies dans les données injectées dans le datawarehouse cloud. En préversion, GCP introduit BigQuery Omni pour Microsoft Azure, une capacité similaire (BigQuery Federation) sera bientôt disponible pour Cloud Spanner. Enfin, le géant du cloud promet de réduire le coût d’entrée de la base de données relationnelle via la mise à disposition d’instance « à dimensionnement granulaire ». « Grâce à cette fonctionnalité, vous pourrez exécuter des charges de travail sur Spanner pour un coût dix fois inférieur à celui des instances normales, soit environ 65 dollars par mois », vante Vaibhav Govil, Senior Product Manager chez Google Cloud, dans un billet de blog.

Par la voix de Gerrit Kazmaier, nouveau Vice-président et directeur général, base de données, Data Analytics et Looker chez Google et ancien président SAP HANA & Analytics chez SAP, GCP prône la volonté de remettre les capacités des équipes data au centre, « de faire travailler un ensemble de compétences interconnectées » au lieu de prôner une vision centrée sur la technologie.

En faisant de cette approche organisationnelle une stratégie commerciale, GCP semble provoquer des chevauchements technologiques, comme c’est déjà le cas avec ces offres de machine learning. En outre, Analytics Hub, Dataplex et DataStream sont pensés tels des éléments formant un tout, mais certaines de leurs fonctionnalités se recoupent. Gerrit Kazmaier vante « une plateforme de traitement de données unifiée », mais celle-ci repose sur l’assemblage de briques disparates. Cette tendance à entremêler des abstractions techniques et commerciales, parfois sources de confusion, s’observe justement chez l’ancien employeur du dirigeant.

Pour approfondir sur MDM - Gouvernance - Qualité

Close