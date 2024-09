InfluxData a dévoilé, mercredi, de nouvelles fonctionnalités pour sa suite de produits InfluxDB 3.0 visant à accélérer et à simplifier la gestion des données de séries temporelles à l’échelle, y compris des améliorations de performance et un nouveau tableau de bord opérationnel.

En outre, l’éditeur a annoncé la disponibilité générale d’InfluxDB Clustered, une version self-managed de sa base de données pour les déploiements sur site et dans les clouds privés, dévoilée pour la première fois en septembre 2023.

Basé à San Francisco, InfluxData est un spécialiste des données de séries temporelles, créateur d’InfluxDB, une base de données « TSDB » open source.

L’éditeur a levé 81 millions de dollars en février 2023, ce qui porte son financement total à plus de 200 millions de dollars. Deux mois plus tard, InfluxData a dévoilé InfluxDB 3.0. La suite de produits comprend InfluxDB Cloud Serverless et InfluxDB Cloud Dedicated, tous deux gérés par InfluxData, et maintenant InfluxDB Clustered pour les utilisateurs self-managed.

L’une des principales mises à jour d’InfluxDB 3.0 a été l’activation de la « cardinalité illimitée », qui fait référence à l’unicité des valeurs dans une colonne de base de données. Une colonne d'une base de données à cardinalité élevée peut accueillir un grand nombre de valeurs uniques par rapport au nombre d'enregistrements. Dans une TSDB, ces valeurs uniques peuvent être des labels (tags) permettant d'analyser des séries temporelles.

InfluxDB 3.0 est le résultat d’une refonte complète du moteur sous-jacent, s’appuyant sur Apache Arrow et Apache DataFusion.

Parmi les autres améliorations clés, citons un débit élevé permettant aux utilisateurs d’ingérer, de transformer et d’analyser des centaines de millions de points de données par seconde, des temps de réponse aux requêtes en temps réel nettement plus rapide, une compression accrue des données pour réduire les coûts de stockage et la prise en charge du langage SQL pour simplifier l’analyse.

« Les [clés] sont la taille et la vitesse », déclare Carl Olofson, analyste chez IDC. « Le domaine des séries temporelles est devenu très compétitif ces dernières années. InfluxData cherche clairement à se démarquer, en réalisant qu’à mesure que les utilisateurs développent des réseaux plus complexes de sources de données – y compris des appareils périphériques – le défi d’appliquer une seule analyse à toutes ces données devient insurmontable ».

InfluxData bichonne le moteur d’InfluxDB 3.0 La dernière mise à jour porte sur l’amélioration des performances et la simplicité d’utilisation. Elle renforce la prise en charge de la simultanéité des requêtes et de la mise à l’échelle afin de mieux gérer les données à cardinalité élevée. Pour cela, le partitionnement personnalisé doit permettre aux développeurs de décider « la manière dont les données sont regroupées dans les fichiers Apache Parquet sous-jacents ». Ce partitionnement est par défaut journalier, mais il est possible de labéliser les partitions suivant le type de données et la fréquence d’interrogation. InfluxData a par ailleurs contribué à Apache DataFusion afin d’améliorer l’agrégation parallèle et le traitement des données de type strings. Les gains de performance promis sont significatifs. En outre, InfluxDB 3.0 dispose désormais d’un nouveau tableau de bord opérationnel. Il fournit des informations visuelles sur les performances et la santé des clusters de données afin que les développeurs puissent faire face aux changements involontaires de la charge de travail, identifier les goulets d’étranglement et optimiser les performances. Un mécanisme d’authentification doit rationaliser le processus de connexion. « En connectant votre fournisseur d’identité au service Auth0 géré par InfluxData, vous pouvez facilement accorder ou révoquer l’accès à votre cluster InfluxDB, comme vous le feriez pour n’importe quel autre système », promet l’éditeur. Enfin, de nouvelles API ont été ajoutées pour permettre aux utilisateurs d’automatiser certaines tâches, dont le déploiement d’instances InfluxDB, la création de bases de données avec des partitions personnalisées ou l’accès aux bases par les développeurs. Selon Carl Olofson, ces nouvelles fonctionnalités s’ajoutent à celles qui composent initialement InfluxDB 3.0 et visent à aider InfluxData à se démarquer sur un marché concurrentiel. Parmi les autres spécialistes des bases de données de séries temporelles figurent Grafana et Prometheus, tandis que les géants de la technologie AWS, Google, IBM et Microsoft sont parmi les autres à proposer des bases de données de séries temporelles. Rachel Stephens, analyste chez Redmonk, remarque qu’historiquement les bases de données time series ont toujours eu du mal avec les charges de travail à cardinalité élevée. Si InfluxData respecte sa promesse, il pourrait avoir un boulevard sur le marché.

InfluxDB Clustered remplacera InfluxDB Enterprise Alors que la mise à jour d’InfluxDB 3.0 porte sur les performances, le lancement d’InfluxDB Clustered étend les capacités du moteur de base de données à un plus grand nombre d’utilisateurs de l’éditeur. Lors de sa sortie initiale, InfluxDB 3.0 n’était disponible que pour les utilisateurs d’InfluxDB Cloud Serverless et Cloud Dedicated, qui sont tous deux des services de base de données entièrement gérés. Les utilisateurs de bases de données sur site et de clouds privés ne disposaient que d’InfluxDB Enterprise, qui n’a pas été conçu avec le moteur d’InfluxDB 3.0. InfluxDB Clustered vise à remplacer InfluxDB Enterprise. Son importance réside donc dans le fait qu’il offre aux clients sur site et en cloud privé les mêmes capacités que les utilisateurs des bases de données entièrement gérées d’InfluxData, selon Rachel Stephens. « InfluxDB Clustered est le produit qui succède à InfluxDB Enterprise », explique-t-elle. « InfluxDB Clustered apporte le moteur de base de données en colonnes aux environnements autogérés des clients ». InfluxDB Clustered peut être déployé à l’aide d’un Helm chart sur Kubernetes. Selon l’éditeur, l’ingestion, l’interrogation et les tiers de stockage « sont totalement découplés », ce qui permettrait la montée à l’échelle indépendante de ces composants clés. Les améliorations apportées à InfluxDB 3.0 et le lancement d’InfluxDB Clustered découlent de l’objectif d’InfluxData de fournir aux développeurs des outils leur permettant de gérer efficacement les charges de travail de séries temporelles à grande échelle, selon Gary Fowler, vice-président des produits de l’éditeur. En particulier, il est essentiel de permettre aux développeurs de traiter de grands ensembles de données en temps réel, compte tenu de la demande croissante de prise de décision en temps réel. « Les charges de travail ne cessant de croître, les développeurs ont besoin de systèmes sophistiqués capables de traiter de grands ensembles de données sans compromettre les performances », avance Gary Fowler. « InfluxDB 3.0 est conçu pour relever ces défis, en offrant les outils nécessaires pour gérer les données de séries temporelles à grande échelle ».