Helene - stock.adobe.com

DBaaS : Aiven lance sa version managée du data warehouse ClickHouse

Le spécialiste finlandais des bases de données à la demande a profité de son premier évènement annuel Uptime pour présenter la disponibilité en bêta de ClickHouse, une base de données souvent utilisée comme un entrepôt de données. Un nouveau marché pour Aiven.

Le fournisseur de DBaaS poursuit le support et le déploiement à la demande de bases de données open source. Après Apache Flink, Aiven présente la bêta de ClickHouse.

ClickHouse est une base de données orientée colonnes utilisée comme un entrepôt de données. Selon la description du projet open source, ce SGBD spécialisé dans les processus analytiques (OLAP) peut « traiter des milliards de lignes et des dizaines de gigaoctets de données par serveur et par seconde ».

« C’est une technologie née chez Yandex, [l’éditeur russe d’un moteur de recherche N.D.LR.] », précise Heiki Nousiainen, Cofondateur et CTO d’Aiven. « Nous suivons son évolution depuis un moment et nous avons constaté qu’elle complète les technologies que nous proposons déjà et qu’elle peut aider à régler des problématiques que nos clients peuvent rencontrer ».

En l’occurrence, Aiven ne proposait pas des technologies appropriées pour les traitements OLAP. En effet, le fournisseur a commencé par proposer PostgreSQL à la demande, puis MySQL. Bien que ces deux SGBD très populaires dans les entreprises puissent supporter les traitements analytiques – avec les bonnes extensions et les bonnes astuces –, ils ne sont pas conçus pour ce type de traitement.

ClickHouse, pour des analyses en temps réel à large échelle

« Auparavant, pour les traitements analytiques, nous recommandions l’utilisation de PostgreSQL et de MySQL, mais une fois que les volumes de données deviennent importants, cela devient plus difficile à gérer », indique Heiki Nousiainen.

« Des technologies open source que nous suivons, ClickHouse est sûrement la meilleure solution pour répondre à ce problème ».

 Selon la documentation de ClickHouse, le SGBD orienté colonnes doit résoudre des problématiques bien spécifiques. Il peut être utilisé pour analyser des données présentes dans des milliards de lignes. Il est aussi capable de s’adapter aux tables contenant un grand nombre de colonnes. En outre, ClickHouse répond bien quand peu de colonnes sont sélectionnées pour répondre à une requête spécifique. Surtout, les résultats « peuvent être retournés en millisecondes ou en secondes ».

ClickHouse dispose de plusieurs fonctionnalités spécifiques. Il ne stocke pas de données supplémentaires avec les valeurs à analyser. Le SGBD possède plusieurs « codecs spécialisés » pour optimiser la compression des données. Son système de stockage et de tri par clés primaires permet d’exécuter des requêtes à faible latence sur des instances moins coûteuses que ses homologues in-memory, tels SAP HANA. Son support natif du langage SQL, sa nature distribuée, la possibilité d’exécuter des traitements massivement parallèles, l’insertion de données en temps réel, son moteur de calcul par vecteur, le fonctionnement de ses index primaires et secondaires, ainsi que la prise en charge native d’un RBAC sont autant de capacités qui rendent le projet pertinent pour les entreprises.

Dans ce domaine, il y a un bon nombre d’entrepôts propriétaires, dont Snowflake, Teradata, Amazon RedShift, Vertica ou encore SAP HANA.

« Il y a beaucoup de bonnes solutions propriétaires [...] sur le marché, mais nous croyons également que les bases de données open source sont celles avec lesquelles nos clients et les développeurs veulent bâtir leurs architectures. »
Heiki NousiainenCofondateur et CTO d’Aiven

« Je pense qu’il y a beaucoup de bonnes solutions propriétaires – techniquement matures – sur le marché, mais nous croyons également que les bases de données open source sont celles avec lesquelles nos clients et les développeurs veulent bâtir leurs architectures », affirme Heiki Nousiainen.

D’autres éditeurs, dont SingleStore, Google Cloud avec AlloyDB, ou Oracle avec MySQL Heatwave tendent à proposer une seule base de données capable d’effectuer des traitements OLTP et OLAP. « Au vu des volumes de données de plus en plus massifs et des besoins de traitements, nous avons besoin de bases de données spécialisées pour répondre à des besoins spécifiques », croit le CTO d’Aiven qui partage là la vision de Neo4J et d’AWS.

« Et je pense que les nouvelles bases de données ou les évolutions qui débarquent sur le marché sont justement pensées pour résoudre des problèmes de stockage et de traitement de gros volumes de données en temps réel », ajoute le CTO.

Une certaine victoire de l’open source

En outre, les quelque 500 clients d’Aiven – par exemple, Norauto, Adeo, Auchan, et Décathlon en France – déploient en partie des services concurrents aux DbaaS proposés par AWS et Google Cloud. Des SGBD en cloud qui, eux aussi, s’appuient sur des technologies open source.

« Je pense que c’est très bien. Cela signifie que les utilisateurs choisissent vraiment l’open source et que les hyperscalers doivent suivre et répondre à la demande des clients », commente le CTO d’Aiven. « Maintenant, la question est de savoir pourquoi ils choisiraient nos solutions plutôt que celles proposées par les fournisseurs cloud. Nous utilisons les versions upstreams des projets open source ».

Il arrive souvent qu’AWS, GCP ou Microsoft modifient les projets ouverts qu’ils distribuent, laissant planer le doute sur la portabilité ou sur la propriété de la licence.

« Notre engagement est de respecter la véritable nature open source [des projets]. Nous nous assurons que les clients ont toujours le droit et le choix d’exécuter leurs charges de travail, que ce soit dans le cloud, dans AWS ou dans Google Cloud ou même sur site », vante Heiki Nousiainen.

Pour autant, Aiven ne veut pas se contenter de proposer une version managée de ClickHouse. Sans pont vers les déploiements existants de ses clients, le fournisseur aura probablement moins de moyens pour les convaincre d’adopter le service. Ainsi, il est possible d’intégrer les données transportées en quasi-temps réel par Aiven For Apache Kafka, d’effectuer des requêtes fédérées depuis ClikHouse sur des instances PostgreSQL Aiven sans transférer les données, et de les visualiser avec Grafana. Par ailleurs, en matière d’observabilité, Aiven for ClickHouse est compatible avec Datadog, Prometheus, Jolokia ou d’autres.

Pour gérer le SGBD, Aiven propose sa console GUI, son CLI ou permet des déploiements via les outils Terraform. Il serait possible de déployer un cluster ClickHouse en dix minutes sur AWS et Google Cloud, dans plus de 50 régions. Tout comme les autres services du fournisseur, il supporte la haute disponibilité et la méthode Bring Your Own Account (BYOA).

Aiven se penche sur la gouvernance des données

Pour l’instant, Aiven rappelle que la base de données n’est disponible qu’en bêta et ne peut donc être déployée en production. Les niveaux de support premium ne sont pas encore disponibles.

« Nous cherchons à aider les organisations à répondre à deux exigences, à savoir le suivi des données et de leur modification, et le respect de la conformité. »
Heiki NousiainenCofondateur et CTO d’Aiven

De son côté, OVHcloud mène une bêta pour une version managée de ClickHouse depuis octobre 2021. Le fournisseur cloud français fait appel en marque blanche aux services d’Aiven. « C’est un partenariat très intéressant pour nous. OVH a aussi une stratégie ambitieuse et cela permet de proposer des services qui prennent en compte les dimensions légales et souveraines chères à l’Europe », avance Heiki Nousiainen. « OVHcloud est aussi une alternative européenne aux trois grands géants du cloud américains ».

Pour sa part, Aiven entend poursuivre la diversification de son portfolio. Justement, le fournisseur finlandais s’intéresse de plus en plus aux technologies open source de gouvernance des données. « La gouvernance est certainement comme une prochaine étape importante de notre feuille de route », indique le CTO. « Nous cherchons à aider les organisations à répondre à deux exigences, à savoir le suivi des données et de leur modification, et le respect de la conformité, en montrant réellement où les données sont stockées et qui y a accès, tout en facilitant leur collecte et leur utilisation ».

À savoir quelles technologies Aiven compte mettre à la disposition des usagers, Heiki Nousiainen répond que la société n’a pas sélectionné les briques open source disponibles. « Je ne suis pas sûr que ce domaine soit très mature. Si nous ne trouvons pas de projets prêts à l’emploi, nous pouvons envisager de développer quelque chose avec la communauté open source », conclut-il.

Pour approfondir sur Base de données

Close