PostgreSQL « serverless » : Databricks s’apprête à acquérir Neon

Avec Neon, Databricks ambitionne de réunir des capacités analytiques, IA/ML et opérationnelles au sein de sa plateforme. Un « coup d’éclat » face à Snowflake et un défi lancé aux hyperscalers, selon un analyste.

Databricks a annoncé sa volonté d’acquérir Neon pour un montant estimé à environ 1 milliard de dollars, selon les informations confirmées par l’entreprise. Les conditions précises du rachat n’ont pas été dévoilées et sont sujettes à supervision réglementaire.

Basée à Menlo Park, en Californie, Neon est une startup qui développe une distribution serverless de la base de données relationnelle open source PostgreSQL.

PostgreSQL est reconnu par les éditeurs et les entreprises comme un remplaçant de choix pour des bases de données propriétaires comme Oracle, SQL Server, ou celles en perte de vitesse, telles MariaDB. Elle reste tout du moins complexe à gérer en propre et bon nombre d’entreprises se sont tournées vers la version managée d’AWS (Aurora PostgreSQL) et dans une moindre mesure vers Google AlloyDB ou celle d’Aiven.

Fondée en 2021 par Heikki Linnakangas, Stas Kelvich et Nikita Shamgunov, cofondateur et un temps CEO de SingleStore, Neon a été conçue comme une alternative à Aurora Serverless.

Neon, une alternative open source à Aurora Serverless

L’architecture développée par Neon vise à séparer le stockage du calcul. Un Control Plane Neon est utilisé pour orchestrer les deux types de ressources. Les opérations de la base sont exécutées par nœud Neon et les données sont stockées dans un espace de stockage clé-valeur multitenant, le Neon Storage Engine (écrit en Rust). Les logs WAL (Write Ahead Logs), utilisés pour s’assurer de la durabilité des données récemment écrites, sont déposés dans des espaces Safekeepers jusqu’à ce qu’ils soient validés par les PageServers, responsables des opérations de lecture, dans un espace de stockage objet. Les données sont stockées dans plusieurs zones de disponibilités à l’aide du protocole Paxos.

Contrairement à Aurora PostgreSQL ou AlloyDB, qui s’appuient sur des mécanismes similaires, le Neon Engine Storage est open source (Apache 2.0), tout comme une grande partie des fondations techniques du projet. Son dépôt GitHub a récolté plus de 17 000 étoiles et est alimenté par 141 contributeurs (dont une grande partie est des employés de Neon).

Outre la durabilité, Neon promet une mise à l’échelle et des performances de haute volée. La startup a par exemple développé NeonVM, un outil basé sur QEMU ou KVM pour exécuter des machines virtuelles sur Kubernetes. Outre le fait que ces VM hébergent les instances PostgreSQL, un agent associé a la charge du contrôle de l’autoscaling en combinaison d’une version modifiée du scheduler de Kubernetes.

En outre, l’éditeur a multiplié les fonctionnalités pour les développeurs. Il y a d’abord un mécanisme pour connecter Neon Postgres à des fonctions serverless. Un système de branche doit permettre de créer des environnements éphémères de développement qui ne répliquent pas toute la base, au besoin. Pour ce faire, Neon s’appuie sur un mécanisme « copy-on write ». « Ce n’est que lorsqu’une modification est apportée à la branche que Neon écrit une nouvelle copie des données modifiées ».

Un service d’anonymisation des données vient d’être lancé et l’éditeur propose déjà des outils de migration depuis RDS, Azure Database, Supabase et Heroku vers Neon. L’éditeur a aussi mis au point un mécanisme pour faire déployer les bases de données par un agent IA.

En disponibilité générale depuis le 15 avril 2024, Neon revendique plus de 18 000 bases de données créées quotidiennement depuis sa plateforme.

Une treizième acquisition, au moins la troisième cette année

Avant son rachat par Databricks, la startup a levé 129 millions de dollars. Le groupe Databricks, cofondé et dirigé par Ali Ghodsi, était déjà un investisseur de Neon, tout comme son concurrent Snowflake.

« L’équipe Neon a conçu une nouvelle architecture de base de données qui offre la vitesse, l’évolutivité élastique, le “branching” et le “forking”. »
Ali GhodsiCofondateur et CEO, Databricks

« L’équipe Neon a conçu une nouvelle architecture de base de données qui offre la vitesse, l’évolutivité élastique, le “branching” et le “forking”. Les capacités qui font de Neon une solution idéale pour les développeurs le sont également pour les agents d’intelligence artificielle », écrit Ali Ghodsi, sur LinkedIn. « Ensemble, nous fournirons une base de données ouverte et serverless pour les développeurs et les agents IA ».  

Pour rappel, lors de son événement Datai+AI Summit 2024, l’éditeur avait revendiqué une approche « 100 % » serverless.

C’est la treizième acquisition connue de Databricks, selon Crunchbase et la troisième cette année après Bladebridge, spécialiste de la migration de données relationnelles, et Fennel AI, l’éditeur d’un moteur de calcul consacré aux pipelines de machine learning. Toujours selon Crunchbase, l’acquisition de Neon serait la plus importante après celle de MosaicML (1,3 milliard de dollars). Le rachat de Tabular, qui avait fait grand bruit, dépassait le milliard de dollars.

Il faut dire que le concurrent de Snowflake n’a cessé de retarder son introduction en bourse. Il s’est appuyé sur une manne financière composée, entre autres, d’une levée de fonds de 10 milliards de dollars et d’une ligne de prêts de 5,3 milliards de dollars.

Databricks veut réunir des capacités analytiques et transactionnelles sous son toit

Si les rachats du groupe semblent équilibrer les investissements en IA et gestion de données relationnelles, les opérations les plus remarquées concernent avant tout le second volet. Dans le cas de Neon, l’IA n’est qu’une belle robe pour convaincre les investisseurs de la valeur de la mariée.  

« Désormais [Databricks] possède une base de données opérationnelle Postgres autonome et complète qui fonctionne de manière indépendante et n’est pas une extension. »
Sanjeev MohanFondateur et analyste principal, SanjMo

« Cette acquisition propulse Databricks dans une nouvelle stratosphère qui est aujourd’hui occupée par les hyperscalers », déclare Sanjeev Mohan, fondateur et analyste principal chez SanjMo, auprès de SearchDataManagement, une publication sœur du MagIT. « Pendant des années, Databricks et Snowflake ont été en concurrence. Ce que Databricks a fait est un coup d’éclat », poursuit-il. « Désormais, il possède une base de données opérationnelle Postgres autonome et complète qui fonctionne de manière indépendante et n’est pas une extension ».

Databricks réunit ainsi des capacités OLAP (analytique) existantes et de nouvelles, OLTP (opérationnelle ou transactionnelle). C’est l’argument principal de SingleStore.

Pourtant, en 2023, quand Databricks a acquis bit.io qui proposait déjà une version serverless de PostgreSQL, il ne s’était pas lancé sur ce terrain dominé par AWS, Google Cloud, Microsoft Azure et Oracle. L’éditeur semble désormais confiant. Son modèle et celui de Snowflake – qui permet d’abaisser la dépendance aux fournisseurs cloud – ont prouvé leur efficacité. Mais il y a une question en suspens.

« Les entreprises seront-elles prêtes à dépendre à ce point d’un seul fournisseur et à tout transférer sur Databricks ? », s’interroge Paul Dudley, cofondateur de Streamkap, l’éditeur d’un outil de réplication de données en temps réel basé sur Apache Kafka et Flink.

Pour approfondir sur Base de données