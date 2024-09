Fivetran a annoncé la semaine dernière la disponibilité générale d’Hybrid Deployment pour son service ELT. Ce service est accessible pour les clients ayant souscrit aux forfaits Enterprise ou Business Critical.

Comme son nom l’indique, Hybrid Deployment permet aux clients de l’éditeur de déployer des data planes sur les environnements de leur choix, principalement des instances cloud protégées par un VPC et des serveurs sur site. Fivetran Cloud sert alors de control plane pour piloter les pipelines de données.

Hybrid Deployment : des pipelines de données managés, mais sur site

Techniquement, Fivetran déploie un agent local derrière le réseau de ses clients. Cet agent déployé sur un serveur Linux équipé de Docker ou Podman reçoit les jobs à exécuter configurés depuis l’interface utilisateur ou une API côté Fivetran. Le control plane et le data plane communique à travers un point de terminaison d’orchestration utilisant le protocole gRPC. Le tout est protégé à l’aide d’un tunnel mTLS.

Suivant la nature du job, l’agent local télécharge les images nécessaires aux transformations à partir d’un registre privé situé dans le périmètre du control plane, puis effectue les traitements réclamés.

Dans sa documentation, l’éditeur recommande de déployer les conteneurs sur un serveur équipé d’un minimum de 4vCPU x 86-64 et de 8 Go de mémoire vive. Il est nécessaire d’allouer un minimum de 50 Go d’espace de stockage à Docker ou Podman. Bien évidemment, il faut s’assurer que l’espace de stockage persistant est suffisant pour accueillir les jeux de données traités.

L’agent renvoie des métadonnées (métriques de synchronisation, nombre de lignes actives par mois, logs) au control plane, afin d’indiquer le statut des jobs et le faire apparaître depuis le tableau de bord de la plateforme. Chaque agent peut gérer 10 connecteurs. Fivetran assure qu’Hybrid Deployment prend en charge 500 connecteurs, mais n’en liste qu’une quarantaine (en comptant les variantes), dont six destinations (BigQuery, Databricks, PostgreSQL, PostgreSQL RDS, Redshift et Snowflake) dans sa documentation.

Selon Fivetran, les métadonnées servent à synchroniser les données, à gérer les jobs et à facturer les clients suivant le nombre de lignes actives (comme avec son offre SaaS). Les données des clients sont traitées localement et ne doivent pas quitter leur réseau privé. Il serait possible de déplacer les données à plus de 30 Mb/s.

« Comme vous le savez, chaque client est confronté à des attentes de plus en plus élevées en matière de conformité et de sécurité, ainsi qu’à une quantité croissante de données, tant internes qu’externes », affirme Taylor Brown, cofondateur et COO de Fivetran.

« Ce que les clients en retirent, c’est qu’ils peuvent gérer toutes leurs données sur site à partir d’un environnement hébergé dans le cloud. […] Ils peuvent désormais limiter spécifiquement les données qui sont transférées de leur environnement sur site vers leurs instances cloud tout en bénéficiant d’une configuration managée ».

Pour rappel, le spécialiste de l’ELT s’est d’abord fait connaître pour son service SaaS avant de racheter HVR, l’éditeur d’une solution de réplication de données en 2021 pour 700 millions de dollars.