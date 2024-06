Le rachat de la startup Rockset, éditrice d’une base de données analytique en temps réel et de recherche vectorielle, démontre qu’OpenAI souhaite mieux cibler les entreprises.

Cette acquisition rendue publique le 21 juin donne au fournisseur de grands modèles de langage l’accès à une base de données cloud native permettant à ses clients de retrouver et de générer des informations actualisées.

C’est en tout cas ce que pense Kashyap Kompella, CEO du cabinet de recherche, RPA2AI Research.

« Avec des capacités d’ingestion, de traitement, de recherche et d’analyse de données et la prise en charge des données SQL, NoSQL et vectorielles, Rockset comble les lacunes de la technologie OpenAI et peut devenir plus adapté et plus attrayant pour les cas d’usage en entreprise », déclare M. Kompella.

Rockset, un bébé de RocksDB

Comme tous les fournisseurs de LLM, OpenAI doit arrêter les connaissances de ses modèles à une date donnée. Par exemple, le modèle GPT-4-Turbo a un « knowledge cutoff » établi en avril 2023.

« Pour beaucoup de cas d’usage d’entreprise, si la réponse d’un modèle s’appuyant sur des données de préentraînement, cela ne suffit pas », avance Kashyap Kompella. « Pour être utiles, les réponses de l’IA doivent contenir des informations opportunes, actualisées et souvent en temps réel ».

Fondée en 2016 par deux anciens ingénieurs de Facebook, Rockset développe une base de données reposant sur une architecture découplant calcul et stockage.

Celle-ci est une variante de RocksDB, un moteur de clé-valeur persistant in-memory (dérivé de LevelDB de Google), à la fois adapté au stockage en mémoire vive et Flash, imaginé dans les locaux… de Facebook (Meta).

La startup mise sur un système d’indexation « convergé ». En clair, elle prend en charge trois types d’index pour les données en colonne, en ligne et inversé (pour la recherche) au moment de leur ingestion. Un système d’optimisation des requêtes permettrait d’interroger les données en quelques centaines de millisecondes après leur ingestion. La société a conçu un système « schemaless », capable de reconnaître « automatiquement » le type de données (structurées, semi-structurées, géographiques, time-series, embeddings).

Rockset propose une vingtaine de connecteurs vers les bases de données et les services de streaming de données des fournisseurs cloud (AWS, GCP, Azure) et de quelques éditeurs (MongoDB, Oracle, Snowflake, Elasticsearch, etc.).

Malgré sa nature NoSQL, Rockset prendrait en charge « l’entièreté » des fonctionnalités SQL et serait idéal pour des applications concurrentes utilisant « moins de 100 To d’espace de stockage ». La startup propose un ensemble de SDK Python, Go, Java, Nodejs, ainsi qu’un provider Terraform et une intégration DBT pour que les développeurs puissent l’exploiter.

Plus récemment, Rockset a ajouté la prise en charge de l’intégration de vecteurs qui permet aux utilisateurs de rechercher et d’analyser des données non structurées.

Jeune concurrent d’Aerospike, de Gridgain ou encore d’HazelCast, Rockset a levé un total de 105 millions de dollars, dont 44 millions en août 2023. Aucune des deux sociétés n’a révélé la valeur de l’acquisition, mais la transaction, entièrement en actions, aurait été à neuf chiffres, selon Reuters.

Les membres de l’équipe de Rockset rejoindront OpenAI, indiquent les deux sociétés dans un billet de blog.

« L’infrastructure de Rockset permet aux entreprises de transformer leurs données en informations exploitables. Nous sommes ravis d’apporter ces avantages à nos clients en intégrant les fondations de Rockset dans les produits OpenAI », affirme Brad Lightcap, COO d’OpenAI, dans ce même billet, déclaration qui semble confirmer les propos des analystes.

OpenAI, qui a débuté en tant que laboratoire de recherche à but non lucratif en 2015, a connu une croissance explosive dans le cadre de la montée en puissance de l’IA générative et est désormais une société à but lucratif évaluée à plus de 80 milliards de dollars.

Si les produits du fournisseur GenAI, qui propose également la série de modèles Dall-E de générations d’images ainsi que les modèles multimodaux GPT-4o et Sora, se sont avérés populaires auprès du grand public, l’entreprise n’a pas encore établi une base solide de clients professionnels.

« La plus grande valeur d’OpenAI réside dans son potentiel à revoir entièrement l’indexation des données et l’interrogation au sein de sa propre plateforme », déclare Mike Leone, analyste au sein de l’Enterprise Strategy Group de TechTarget [également propriétaire du MagIT]. « Cela signifie qu’OpenAI sera en mesure d’améliorer la confiance dans les réponses grâce à un accès plus rapide à de plus grandes quantités de données ».

Par ailleurs, certains voient dans la démarche d’OpenAI le signe d’une tendance naissante qui pourrait inverser le paradigme actuel selon lequel les grands spécialistes de la gestion de données investissent dans des startups d’IA plus petites et les acquièrent.

« C’est le début d’une tendance. Les entreprises de données passent des données à l’IA. C’est le cas de Snowflake, Databricks, Oracle, Google. Aujourd’hui, nous constatons que les entreprises d’IA se rapprochent des données », ajoute Sanjeev Mohan, directeur de SanjMo, une société de conseil spécialisé en traitement de données. « À un moment donné, les données, l’analytique et l’IA vont toutes converger, et nous allons donc voir davantage de rachat de ce type ».