vege - stock.adobe.com

RAG : pour étayer watsonx.ai, IBM jette son dévolu sur DataStax

IBM a annoncé ce jour sa volonté d’acquérir DataStax. Le géant de l’IT entend s’appuyer sur la base de données NoSQL et l’expertise en recherche vectorielle de l’éditeur californien pour compléter les fonctionnalités de sa plateforme watsonx.ai.

Après Red Hat en 2019 et alors qu’il n’a pas terminé l’acquisition de HashiCorp (malgré l’accord de l’autorité de la concurrence britannique obtenue ce jour), Big Blue a annoncé sa volonté d’acquérir DataStax pour un montant encore inconnu. « L’acquisition devrait être finalisée au cours du deuxième trimestre 2025, sous réserve des conditions de clôture habituelles et des approbations réglementaires », précise la communication d’IBM.

Pour rappel, DataStax est un éditeur de base de données fondé en 2010 à Santa Clara. DataStax est le fournisseur d’une distribution commerciale du SGBD NoSQL Apache Cassandra. Apache Cassandra est née dans les locaux de Facebook (Meta) avant d’être libérée sous licence Apache 2.0 en 2008.

Open source, hybride, gros volume de données : DataStax, une entreprise « IBM compatible »

De son côté, DataStax a développé un ensemble de solutions, dont une distribution self-managed « hybride » (DataStax Enterprise) et un service DbaaS, AstraDB. Ces solutions sont utilisées par Netflix, Apple, Starbucks, FedEx, Capital One ou encore Verizon. AstraDB est pensée pour simplifier les déploiements de Cassandra, réputée pour sa complexité à large échelle.

Ces dernières années, l’entreprise a à la fois misé sur son service de streaming (Astra Streaming) basé sur Apache Pulsar et sa prise en charge de l’IA générative.

LeMagIT a évoqué, l’année dernière, le lancement d’Hyper Converged Data Platform, une offre pour une infrastructure hyperconvergée intégrant des fonctionnalités RAG. Il est également revenu sur le choix de l’algorithme DiskANN, un composant primaire dans la prise en charge de la recherche vectorielle.

Depuis l’éditeur a développé Langflow, un framework low-code et open source conçu pour bâtir des systèmes multiagents et des applications RAG. Selon Chet Kapoor, président du conseil d’administration et CEO de DataStax, Langflow serait utilisé par des « dizaines de milliers de développeurs ».

Muscler watsonx.ai (et plus si affinité)

Si IBM et DataStax ont déjà coopéré par le passé (notamment pour déployer des solutions chez des clients comme Audi, T-Mobile, The Home Depot ou Intuit), ce sont bien ces efforts en matière d’IA générative qui motivent l’acquisition, selon Rikita Gunnar, directrice générale IA et données chez IBM. Il s’agit plus particulièrement d’infuser les briques de DataStax dans la plateforme watsonxai.

« L’acquisition stratégique de DataStax apporte à watsonx des capacités avancées dans la gestion des données non structurées et semi-structurées […] », affirme Rikita Gunnar, dans un billet de blog. « Elle permet ainsi aux clients de moderniser leurs systèmes et de développer les applications d’IA de prochaine génération », poursuit-elle. « L’infrastructure de données nécessaire à l’IA ne se résume pas aux seuls vecteurs : de nombreuses modalités de données – JSON, séries temporelles, clé/valeur, tabulaires, graphes – doivent être intégrées pour garantir une ingestion et une recherche de données précises et pertinentes. En regroupant ces éléments dans une solution simplifiée et évolutive grâce à l’IA générative, les utilisateurs n’ont plus besoin de rassembler manuellement différentes représentations de données pour exploiter pleinement la valeur de leurs données d’entreprise », vante-t-elle.

En résumé, il s’agit d’intégrer AstraDB, DataStax Enterprise et LangFlow à watsonx, ainsi que d’y apporter des capacités de traitement vectoriel et de GraphRAG.

Ce ne serait que la pointe de l’iceberg, selon Doug Henschen, analyste chez Constellation Resarch. « Le communiqué de presse aborde principalement les possibilités autour de l’IA générative », écrit-il. Or, l’éditeur n’a introduit le stockage des vecteurs et la prise en charge des embeddings que depuis l’année dernière. « La plateforme sous-jacente est solide et orientée vers des déploiements massifs à l’échelle mondiale ».

Toujours selon Doug Henschen, DataStax a dû faire face à la concurrence accrue de la part des fournisseurs cloud publics, en premier lieu AWS. Celui-ci propose DynamoDB, une autre base de données NoSQL et Amazon KeySpaces, une solution basée sur Cassandra. Couchbase, qui a récemment annoncé une intégration avec les services NIM de Nvidia, et MongoDB, qui vient d’annoncer le rachat du spécialiste de la recherche sémantique Voyage AI, sont quelques-uns des concurrents les plus visibles de DataStax sur la scène NoSQL.

Quelques questions en suspens

Si IBM demeure le porteur d’une philosophie open source, il n’en reste pas moins que ses actions passées ont laissé entendre qu’il aime à avoir le contrôle sur les technologies qu’il commercialise. Les risques de prise de contrôle sur le SGBD NoSQL sont quasi inexistants, selon Patrick McFadin, principal technical strategist chez DataStax et contributeur principal du projet Cassandra.

« Il s’agit d’un projet de l’Apache Software Foundation. Le cœur de métier de DataStax est de participer à cette communauté open source et de construire des services autour de Cassandra ».
Patrick McFadinPrincipal technical strategist, DataStax et contributeur principal du projet Cassandra

« Tout d’abord, et cela vaut la peine de le rappeler, DataStax ne possède pas Cassandra », signale-t-il, dans un billet de blog. « Il s’agit d’un projet de l’Apache Software Foundation. Le cœur de métier de DataStax est de participer à cette communauté open source et de construire des services autour de Cassandra ». Ce n’est pas le cas de Langflow, par exemple. Ce projet sous licence MIT n’est rattaché à aucune fondation. Concernant Cassandra, les porte-parole d’IBM laissent entendre qu’ils maintiendront l’engagement de DataStax, sans plus de précision.

L’autre risque majeur concerne les changements de politiques commerciales. « Nous sommes profondément engagés auprès des clients de DataStax, en veillant à ce qu’ils continuent à disposer d’un accès évolutif et permanent à leurs charges de travail de données les plus critiques, tout en les préparant à l’IA », assure Rikita Gunnar.

Doug Henschen, lui, attend la réaction des grands clients « cloud native » de DataStax. « Il sera intéressant de voir si les grands clients “cloud-native” (Netflix, Priceline, Overstock, etc.) disposant d’équipes d’ingénieurs qualifiés reviennent à une version self-managed de Cassandra à la suite de cette acquisition », conclut-il.

Pour approfondir sur Base de données