Confluent renforce sa sécurité et sa prise en charge d’Apache Flink

Confluent coche les cases sur sa feuille de route consacrée à la prise en charge d’Apache Flink. Au passage, il renforce ses options de sécurité et explique pourquoi il vient de mettre la main sur WarpStream.

Le spĂ©cialiste du streaming de donnĂ©es a dĂ©voilĂ© la semaine dernière la mise Ă  jour Q3 2024 de sa plateforme cloud.

Cette annonce suit de près l’acquisition le 9 septembre de WarpStream par Confluent, un autre Ă©diteur d’un service managĂ© basĂ© sur Apache Kafka.

Pour rappel, Confluent fournit principalement une plateforme de streaming de donnĂ©es basĂ©e sur Apache Kafka, une technologie open source dĂ©veloppĂ©e par les cofondateurs de Confluent, Jay Kreps, Neha Narkhede et Jun Rao, alors qu’ils travaillaient chez LinkedIn. Kafka, qui a Ă©tĂ© lancĂ© en 2011, permet aux utilisateurs d’ingĂ©rer et de traiter les donnĂ©es au fur et Ă  mesure qu’elles sont produites en temps rĂ©el.

L’éditeur maintient deux offres principales : Confluent Cloud, un service managĂ© en cloud, et Confluent Platform, un système self-managed.

Apache Flink, quant à lui, a été lancé en 2014. C’est un framework de traitement pour le streaming de données. Flink fournit une couche de calcul qui permet aux utilisateurs de filtrer, de combiner et d’enrichir les données au fur et à mesure qu’elles sont produites et traitées afin de favoriser l’analyse en temps réel.

En mars 2024, Confluent a dĂ©voilĂ© la prise en charge de Flink dans un service managĂ©, sobrement intitulĂ© Confluent Cloud for Apache Flink.

 Lorsque Confluent a commencĂ© Ă  proposer Flink Ă  ses clients, il l’a fait avec une API qui permettait aux dĂ©veloppeurs de crĂ©er des flux de donnĂ©es Ă  l’aide de SQL. Cependant, tous les dĂ©veloppeurs ne connaissent ou n’apprĂ©cient pas forcĂ©ment le langage d’instructions.

L’API Table, introduite avec la mise Ă  jour Q3 2024, est un outil qui permet aux utilisateurs de Flink de dĂ©velopper des pipelines en Ă©crivant du code Python ou Java.

Selon David Menninger, analyste chez Ventana Research (ISG), « c’est une Ă©tape logique Â». Le choix est important lorsque les dĂ©veloppeurs crĂ©ent des environnements pour la gestion et l’analyse des donnĂ©es. Il faut Ă©viter aux entreprises une forme d’enfermement propriĂ©taire, leur permettre d’exploiter des outils spĂ©cifiques Ă  une tâche et leur confier l’accès Ă  des outils que les utilisateurs maĂ®trisent et prĂ©fèrent.

Par ailleurs, Confluent entend simplifier la gestion des schémas de données dans Flink en évitant si possible les conversions. En bêta ouverte, Flink SQL permet d’interroger des modèles d’IA, dont des algorithmes de machine learning et des LLM.

Plus de sécurité dans Confluent Cloud

Plus important selon l’analyste de Vantana Research, Confluent apporte de nouvelles fonctions de sécurité. Plus précisément, la plateforme de Confluent prend désormais en charge les réseaux privés pour Flink. Cette option est disponible sur AWS pour les clusters Enterprise et Dedicated. Les données traitées par la version managée de Flink ne transitent que par le réseau VPC déployé par le client. Confluent dit simplifier cette configuration, comme il l’a déjà fait pour les instances Confluent Kakfa.

En disponibilité limitée, l’éditeur propose également une option de chiffrement des champs de données côté client au sein des flux de streaming Kafka et Flink. Il s’appuie pour cela sur les KMS d’AWS, d’Azure, de GCP et d’HashiCorp (HCP Vault). Afin d’implémenter cette fonction dans les applications, plusieurs langages de programmation sont pris en charge, dont Java, Go, C#/.NET. L’arrivée de Node.js et Python est prévue pour bientôt. Cette option est accessible pour les entreprises ayant souscrit au package Stream Governance Advanced.

Le volume de données augmente à un rythme exponentiel. Il en va de même pour la complexité des données. Pour garantir la sécurité des informations sensibles, de nombreuses entreprises disposent d’environnements de stockage de données hybrides, les données les moins réglementées étant stockées dans des clouds publics, tandis que les données plus réglementées, telles que celles contenant des informations personnelles identifiables, sont conservées sur place ou dans des instances de cloud privé.

« Ce n’est peut-ĂŞtre pas très sexy, mais les nouvelles fonctions de sĂ©curitĂ©, y compris les rĂ©seaux privĂ©s et le chiffrement des champs cotĂ© client, seront des ajouts bienvenus Â», affirme David Menninger. « Les entreprises accordent une importance accrue Ă  la gouvernance, Ă  la conformitĂ© et Ă  la sĂ©curitĂ© Â».

Selon Jean-SĂ©bastien Brunner, directeur de la gestion des produits chez Confluent, la dĂ©cision d’inclure la prise en charge de l’API Table et les nouvelles fonctions de sĂ©curitĂ©, ainsi qu’une extension pour la plateforme de dĂ©veloppement Visual Studio Code (en accès limitĂ© pour Kafka, encore indisponible pour Flink), est le fruit d’une combinaison d’interactions avec les clients et de l’observation des tendances du marchĂ©.

En sus d’une boucle de rétroaction avec les utilisateurs après chaque mise à jour, l’éditeur s’assure que ses outils sont compatibles avec ceux proposés par des plateformes concurrentes telles que Cloudera, Aiven et les services d’ingestion de données en continu des géants tels qu’AWS, Google Cloud et Microsoft.

Enfin, en raison de son ancrage dans la communauté open source, Confluent tente de simplifier l’usage de Kafka et Flink, deux frameworks réputés pour leur complexité.

WarpStream fournit à Confluent une troisième option d’hébergement des flux Kafka

Selon Jay Kreps, PDG de Confluent, la mise Ă  jour de la plateforme vise Ă  rĂ©pondre aux besoins des clients et aux tendances du secteur, tandis que l’acquisition de WarpStream a pour but d’élargir l’intĂ©gration de Confluent dans l’infrastructure de donnĂ©es des entreprises.

WarpStream a misé sur une approche différente, plus spécifiquement sur une architecture BYOC (bring-your-own-cloud) qui permet aux utilisateurs de déployer la plateforme de données en continu dans leurs instances cloud, plutôt que dans celles d’un fournisseur.

D’une certaine manière, le BYOC est similaire à la prise en charge du réseau privé de Confluent pour Flink. Cependant, en tant qu’architecture native, il s’agit d’une fondation plutôt que d’un ajout.

« Notre objectif est de faire du streaming de donnĂ©es le système nerveux central de chaque entreprise Â», rĂ©pète Jay Kreps. « Pour y parvenir, nous devons faire en sorte qu’il soit parfaitement adaptĂ© Ă  un large Ă©ventail de cas d’usages et d’entreprises. Ce qui a retenu notre attention, c’est leur approche de nouvelle gĂ©nĂ©ration des architectures BYOC Â».

 David Menninger note que certains fournisseurs offrent un service cloud gĂ©rĂ© ou une option « self managed Â» qui peut ĂŞtre exĂ©cutĂ©e dans le cloud. D’autres Ă©diteurs, plus matures, proposent les deux. Les deux options prĂ©sentent des avantages et des inconvĂ©nients. Par exemple, les versions managĂ©es dans le nuage rĂ©duisent les charges de gestion, mais peuvent ĂŞtre coĂ»teuses. Les versions self-managed sont parfois moins chères, mais requièrent plus de main-d’œuvre.

WarpStream offre un troisième choix. « WarpStream offre une option intermĂ©diaire Â», considère David Menninger. « Les entreprises peuvent se dĂ©charger d’une partie des tâches de gestion et d’administration tout en conservant un certain contrĂ´le Â».

Plus prĂ©cisĂ©ment, WarpStream offre une solution proche de l’offre Hybrid Deployment de Fivetran. Le Control Plane sera gĂ©rĂ© par Confluent, tandis que les clients devront dĂ©ployer le data plane sur leurs serveurs et gĂ©rer leur VPC. NĂ©anmoins, Confluent reconnaĂ®t que cette option dispose d’options de transformation plus limitĂ©e, qu’il faut gĂ©rer Kafka Connect « Ă  la maison Â» et qu’elle est (en tout cas pour l’instant) plus adaptĂ©e aux cas d’usage « non opĂ©rationnels Â», comme la collecte de logs et l’observabilitĂ©. WarpStream se distingue aussi par son mĂ©canisme d’écriture « direct Â» dans les espaces de stockage objet S3.

La conformité des données, une priorité (des clients)

Selon Jean-SĂ©bastien Brunner, Confluent prĂ©pare les futures mises Ă  jour de sa plateforme en continuant d’ajouter des fonctionnalitĂ©s de sĂ©curitĂ© et de mise en rĂ©seau pour garantir la conformitĂ© aux rĂ©glementations. Il en va de mĂŞme pour permettre aux clients de se connecter Ă  des sources externes afin de mieux favoriser l’analyse et la comprĂ©hension des donnĂ©es en temps rĂ©el.

Bref, le responsable se garde bien de trop en dire.

David Menninger, quant Ă  lui, suggère que Confluent pourrait encore mieux rĂ©pondre aux besoins des clients en leur permettant de combiner plus facilement les donnĂ©es en continu avec les donnĂ©es au repos.

« Les mondes du streaming de donnĂ©es et des donnĂ©es au repos se rapprochent, mais il s’agit encore de mondes largement sĂ©parĂ©s qui peuvent ĂŞtre intĂ©grĂ©s ou coexister Â», avance-t-il « J’aimerais que Confluent et d’autres crĂ©ent une plateforme plus unifiĂ©e pour les donnĂ©es en continu et les donnĂ©es batch Â».

En ce sens, en mars dernier, l’éditeur avait présenté TableFlow, un projet visant à simplifier l’ingestion de topics Kafka dans des tables Apache Iceberg. Le projet n’en est qu’à ses prémisses.

Pour approfondir sur Middleware et intégration de données