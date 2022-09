Le fournisseur de DBaaS poursuit le support et le déploiement à la demande de bases de données open source. Après Apache Flink, Aiven présente la bêta de ClickHouse.

ClickHouse est une base de données orientée colonnes utilisée comme un entrepôt de données. Selon la description du projet open source, ce SGBD spécialisé dans les processus analytiques (OLAP) peut « traiter des milliards de lignes et des dizaines de gigaoctets de données par serveur et par seconde ».

« C’est une technologie née chez Yandex, [l’éditeur russe d’un moteur de recherche N.D.LR.] », précise Heiki Nousiainen, Cofondateur et CTO d’Aiven. « Nous suivons son évolution depuis un moment et nous avons constaté qu’elle complète les technologies que nous proposons déjà et qu’elle peut aider à régler des problématiques que nos clients peuvent rencontrer ».

En l’occurrence, Aiven ne proposait pas des technologies appropriées pour les traitements OLAP. En effet, le fournisseur a commencé par proposer PostgreSQL à la demande, puis MySQL. Bien que ces deux SGBD très populaires dans les entreprises puissent supporter les traitements analytiques – avec les bonnes extensions et les bonnes astuces – ils ne sont pas conçus pour ce type de traitement.

ClickHouse, pour des analyses en temps réel à large échelle « Auparavant, pour les traitements analytiques, nous recommandions l’utilisation de PostgreSQL et de MySQL, mais une fois que les volumes de données deviennent importants, cela devient plus difficile à gérer », indique Heiki Nousiainen. « Des technologies open source que nous suivons, ClickHouse est sûrement la meilleure solution pour répondre à ce problème ». Selon la documentation de ClickHouse, le SGBD orienté colonnes doit résoudre des problématiques bien spécifiques. Il peut être utilisé pour analyser des données présentes dans des milliards de lignes. Il est aussi capable de s’adapter aux tables contenant un grand nombre de colonnes. En outre, ClickHouse répond bien quand peu de colonnes sont sélectionnées pour répondre à une requête spécifique. Surtout, les résultats « peuvent être retournés en millisecondes ou en secondes ». ClickHouse dispose de plusieurs fonctionnalités spécifiques. Il ne stocke pas de données supplémentaires avec les valeurs à analyser. Le SGBD possède plusieurs « codecs spécialisés » pour optimiser la compression des données. Son système de stockage et de tri par clés primaires permet d’exécuter des requêtes à faible latence sur des instances moins coûteuses que ses homologues in-memory, tels SAP HANA. Son support natif du langage SQL, sa nature distribuée, la possibilité d’exécuter des traitements massivement parallèles, l’insertion de données en temps réel, son moteur de calcul par vecteur, le fonctionnement de ses index primaires et secondaires, ainsi que la prise en charge native d’un RBAC sont autant de capacités qui rendent le projet pertinent pour les entreprises. Dans ce domaine, il y a un bon nombre d’entrepôts propriétaires, dont Snowflake, Teradata, Amazon RedShift, Vertica ou encore SAP HANA. « Je pense qu’il y a de beaucoup de bonnes solutions propriétaires – techniquement matures - sur le marché, mais nous croyons également que les bases de données open source sont celles avec lesquelles nos clients et les développeurs veulent bâtir leurs architectures », affirme Heiki Nousiainen. D’autres éditeurs, dont SingleStore, Google Cloud avec AlloyDB ou Oracle avec MySQL Heatwave tendent à proposer une seule base de données capable d’effectuer des traitements OLTP et OLAP. « Au vu des volumes de données de plus en plus massifs et des besoins de traitements, nous avons besoin de bases de données spécialisées pour répondre à des besoins spécifiques », croit le CTO d’Aiven qui partage là la vision de Neo4J et d’AWS. « Et je pense que les nouvelles bases de données ou les évolutions qui débarquent sur le marché sont justement pensées pour résoudre des problèmes de stockage et de traitement de gros volumes de données en temps réel », ajoute le CTO.

Une certaine victoire de l’open source En outre, les quelque 500 clients d’Aiven – par exemple, Norauto, Adeo, Auchan, et Décathlon en France – déploient en partie des services concurrents aux DbaaS proposés par AWS et Google Cloud. Des SGBD en cloud qui, eux aussi, s’appuient sur des technologies open source. « Je pense que c'est très bien. Cela signifie que les utilisateurs choisissent vraiment l'open source et que les hyperscalers doivent suivre et répondre à la demande des clients », commente le CTO d’Aiven. « Maintenant, la question est de savoir pourquoi ils choisiraient nos solutions plutôt que celles proposées par les fournisseurs cloud. Nous utilisons les versions upstreams des projets open source ». Il arrive souvent qu’AWS, GCP ou Microsoft modifient les projets ouverts qu’ils distribuent, laissant planer le doute sur la portabilité ou sur la propriété de la licence. « Notre engagement est de respecter la véritable nature open source [des projets]. Nous nous assurons que les clients ont toujours le droit et le choix d'exécuter leurs charges de travail que ce soit dans le cloud, dans AWS ou dans Google Cloud ou même sur site », vante Heiki Nousiainen. Pour autant, Aiven ne veut pas se contenter de proposer une version managée de ClickHouse. Sans pont vers les déploiements existants de ses clients, le fournisseur aura probablement moins de moyens pour les convaincre d’adopter le service. Ainsi, il est possible d’intégrer les données transportées en quasi-temps réel par Aiven For Apache Kafka, d’effectuer des requêtes fédérées depuis ClikHouse sur des instances PostgreSQL Aiven sans transférer les données et de les visualiser avec Grafana. Par ailleurs, en matière d’observabilité, Aiven for ClickHouse est compatible avec Datadog, Prometheus, Jolokia ou d’autres. Pour gérer le SGBD, Aiven propose sa console GUI, son CLI ou permet des déploiements via les outils Terraform. Il serait possible de déployer un cluster ClickHouse en dix minutes sur AWS et Google Cloud, dans plus de 50 régions. Tout comme les autres services du fournisseur, il supporte la haute disponibilité et la méthode Bring Your Own Account (BYOA).