kentoh - Fotolia

Confluent consolide enfin sa plateforme de streaming d’événements

Confluent a actualisé sa version managée d’Apache Kafka, afin de passer en disponibilité générale la plupart des fonctionnalités phares présentées il y a plus d’un an. L’éditeur en profite pour changer son cycle de mise à jour.

La mouture Q3 2021 est accessible en disponibilité générale depuis le 17 août et constitue la première mise à jour majeure pour Confluent depuis l’introduction en bourse de l’éditeur le 24 juin dernier.

Confluent est l’un des principaux contributeurs à la technologie open source de streaming d’événements Apache Kafka dont il propose une version managée avec la plateforme Confluent Cloud.

Comme promis de longue date, l’éditeur étend les capacités de sa base de données de traitement d’événements ksqlDB. Elle doit désormais autoriser aux utilisateurs de sonder rapidement les flux issus des topics.

Des requêtes à même les flux avec ksqlDB

Pour cela, Confluent développe depuis un an les requêtes pull (pull queries) depuis ksqlDB.

Selon Dan Rosanova, responsable de la gestion des produits pour Confluent Cloud, Kafka permet déjà les requêtes push, avec lesquelles les informations sont poussées dans une technologie différente, comme Cosmos DB ou Redis, afin que les usagers puissent interroger les données de manière interactive.

Avec les requêtes pull de ksqlDB, les utilisateurs peuvent désormais interroger directement les données en continu avec ksqlDB, sans avoir à les pousser vers une autre plateforme.

Il faut pour cela créer un flux d’entrée qui sert à bâtir une vue matérialisée à laquelle l’on associe des événements. Une fois que cette vue contient des données, une requête permet d’afficher un résultat.

« Les requêtes pull de ksqlDB conféreront certainement aux gens la possibilité de voir les résultats plus rapidement. »
Dan RosanovaResponsable de la gestion des produits, Confluent Cloud

Parmi les applications des pull queries de ksqlDB figure la possibilité pour un développeur d’interroger un flux d’événements pour obtenir la dernière valeur connue d’un flux, afin de mieux comprendre l’état actuel d’une entité. Dan Rosanova ajoute que les utilisateurs peuvent aussi exécuter des requêtes ad hoc sur des données en continu avec ksqlDB.

Cependant, le responsable souligne que ksqlDB ne remplacera pas le besoin des organisations d’exploiter un data warehouse ou d’une base de données pour les données au repos. Il note que Confluent se concentre sur « les données en mouvement, changeantes ».

« Les requêtes pull de ksqlDB conféreront certainement aux gens la possibilité de voir les résultats plus rapidement », déclare-t-il.

Pour autant, le système de requêtes pull demande de prendre en compte certaines limitations de débit concernant le nombre de requêtes par seconde, de consistance des données (certaines écritures peuvent ne pas être prises en compte dans les résultats), de performance suivant les workloads et de bandes passantes. En outre, le nombre de requêtes pull concurrentes est limité à 10.

Cluster Linking disponible sur AWS, GCP et Azure

La mise à jour Q3 2021 officialise également la disponibilité de la capacité de liaison de cluster (Cluster Linking), un système de mirroring qui doit prendre en charge les requêtes et les déploiements de streaming d’événements multicloud sur Google Cloud, AWS et Microsoft Azure.

Dave Menninger, analyste chez Ventana Research, rappelle que la liaison de cluster a été introduite en préversion dans Confluent 6.0. Cluster Linking doit fournir des fonctionnalités nécessaires pour maintenir la synchronisation des implémentations distribuées, la géoréplication des données, ainsi que des options de reprise après sinistre.

« Compte tenu de l’importance croissante des données en mouvement pour de nombreuses entreprises, je pense que ces fonctionnalités seront considérées comme essentielles et ne sont pas facilement réalisables avec une distribution nue d’Apache Kafka », déclare Dave Menninger.

En ce sens, cette release Q3 2021 donne l’occasion à Confluent de mettre trois outils en avant. Le premier est une API pour superviser la latence afin de déterminer les objectifs de point de récupération, « c’est-à-dire, la quantité de données (le cas échéant) qui risque d’être perdue pendant un failover », écrit Dan Rosanova dans un billet de blog. Le deuxième, l’exécution à sec (Dry run) sert à « prévisualiser les résultats d’une commande de promotion ou de défaillance d’un topic sans exécuter réellement le changement ». Et le troisième n’est autre qu’un moyen pour effectuer des migrations depuis des clusters Kafka open source vers la plateforme managée et propriétaire de Confluent.

À noter que Cluster Linking ne peut supporter que cinq sources de données vers une seule destination. Aussi une liaison vers un cluster agit comme un consommateur Kafka. « En tant que tel, un lien de cluster peut provoquer un ralentissement des autres consommateurs s’il pousse la consommation totale au-dessus du quota de débit de votre cluster », peut-on lire dans la documentation.

Pour rappel, Instaclustr, concurrent de Confluent, propose une fonctionnalité de mirroring similaire.

Le début d’un nouveau cycle et la fin d’un autre

La version Q3 2021 n’est pas seulement la première version depuis l’introduction en bourse de Confluent. C’est aussi la première mouture qui marque l’adoption d’un cycle de publication trimestrielle.

Dan Rosanova, explique que Confluent travaille continuellement sur des ajouts pour sa plateforme, mais qu’en proposant des mises à jour trimestrielles, « il sera plus facile pour les clients de comprendre et d’apprendre les nouvelles fonctionnalités ».

Jusqu’alors, Confluent maintenait des actualisations mensuelles. Ce changement semble aussi dicté par son entrée en bourse. Faire coïncider les rapports trimestriels avec les évolutions techniques devrait également permettre de rassurer les actionnaires quant aux avancées de l’entreprise.

Précisons que l’éditeur avait lancé un vaste programme de mise à jour en mai 2020 sous l’appellation projet Metamorphosis. Pratiquement toutes les fonctionnalités présentées depuis lors sont accessibles en production. Confluent doit encore finaliser la compatibilité d’Infinite Storage avec les services cloud, une capacité conçue pour conserver les données de streaming de manière « illimitée ».

La version Q3 2021 ajoute le support de Google Cloud en sus d’AWS, mais il manque Azure. Enfin, n’oublions pas de mentionner la fourniture de deux nouveaux connecteurs managés vers Salesforce Platform Event Source et Cosmos DB Sink.

Pour approfondir sur Base de données

Close