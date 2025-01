Qdrant. C’est l’une des startups ayant surfé sur la vague de l’IA générative. Cette société fondée à Berlin en 2021 (et qui s’est depuis installée à New York) propose une base de données et un moteur de recherche vectorielle open source écrits en Rust. La société, qui a levé 37,8 millions de dollars au total, est régulièrement citée par les ingénieurs qui déploient des applications RAG. Or les entreprises se tournent plutôt vers leurs fournisseurs habituels : MongoDB, Elastic, Oracle, Google Cloud ou AWS.

Ces éditeurs défendent le fait que ces SGBD spécialisés ne sont pas prêts pour la production.

Qdrant a pourtant des arguments pour prouver que sa technologie est maintenable à l’échelle. Elle sait toutefois qu’elle doit l’améliorer.

Avec Qdrant 1.13, la startup entend résoudre certains problèmes rencontrés par ses clients. En premier lieu, les goulets d’étranglement causé par son moteur de stockage.

RocksDB n’est plus le moteur de stockage de Qdrant Les ingénieurs ont choisi RocksDB comme backend du stockage des charges utiles et des vecteurs « clairsemés » (sparse vectors). Il s’agit d’une base de données qui stocke de manière persistante et distribuée des paires clés-valeurs en mémoire vive ou sur des disques flash. Elle a été développée et donnée à la communauté open source par Meta (ex-Facebook). Fork de LevelDB de Google, cette technologie à « usage général » est (plus ou moins bien) exploitée par bon nombre d’éditeurs et fournisseurs. Son avantage, pour Qdrant, c’était « sa capacité à gérer des lectures et des écritures aléatoires ». Or, malgré sa réputation de couteau suisse, RocksDB ne prend pas tous les cas de figure à la perfection. « Un exemple clé est le compactage, un processus qui réorganise les données sur le disque pour maintenir les performances », indiquent les ingénieurs de Qdrant, dans un billet de blog. « En cas de forte charge d’écriture, le compactage peut devenir un goulet d’étranglement, entraînant des ralentissements importants », poursuivent-ils. « Pour Qdrant, cela se traduisait par d’énormes pics de latence à des moments aléatoires, provoquant des erreurs de temporisation lors de téléchargements importants, ce qui constituait un obstacle frustrant ». La solution choisie par la startup ? Développer un backend de stockage « custom » optimisé pour la gestion de vecteurs. Ce backend de stockage est divisé en quatre couches. La Data Layer stocke les données sous forme de blocs de taille fixe, dont le nombre est ajustable selon la charge de travail. La Mask Layer utilise un bitmask pour indiquer quels blocs sont occupés, avec un faible surcoût de stockage. La couche nommée « Region » optimise l’occupation mémoire en suivant les écarts dans le bitmask. Un processus qui nécessiterait seulement 6 kilo-octets de RAM par gigaoctet de données. Enfin, la « Tracker Layer » doit assurer des recherches rapides en associant directement les identifiants aux emplacements des données. « Contrairement à RocksDB, notre système offre des performances constantes en veillant à ce que les lectures et les écritures nécessitent un nombre constant d’opérations sur le disque, quelle que soit la taille des données », promettent les ingénieurs. Ce n’est pas la première fois qu’un éditeur de base de données se sépare de RocksDB. Redis l’a par exemple remplacée par la technologie de Speedb, plus adaptée à sa fonction d’auto-tiering. Cela dit, Qdrant ne fournit pas de benchmark pour rendre compte de ses dires. Un autre problème peut affecter les performances de la base de données vectorielles à l’échelle : les « voisins bruyants ». Cette expression renvoie, pour rappel, aux perturbations que peuvent causer des charges de travail concurrentes sur l’usage de ressources mutualisées dans une architecture multitenant. C’est en vue de mitiger ce problème que Qdrant propose un mode « strict ». « Il limite les opérations intensives comme le filtrage non indexé, la taille des lots et certains paramètres de recherche pour éviter toute surcharge du système », assure la startup. « Des protections supplémentaires, comme des restrictions sur la taille des données, les conditions de filtrage et les délais d’exécution, garantissent des performances rapides et fiables pour les applications exigeantes ». Outre les enjeux de stabilités, Qdrant doit faire en sorte, comme l’ensemble des acteurs qui prennent en charge la recherche vectorielle, de réduire l’empreinte de la mémoire des vecteurs. Pour cela, la startup dit avoir adapté une technique de compression habituellement utilisée par les moteurs de recherche à son implémentation de l’algorithme Hierachical Navigable Small Worlds (HNSW). Pour rappel, cet algorithme orienté graphe propulse la recherche de similarité entre les vecteurs dans un espace de grande dimension. L’encodage Delta doit permettre de « compresser les données en ne stockant que les différences entre les valeurs ». Cette approche serait moins gourmande en ressources CPU que les techniques de décompression telles lz4 ou gzip. La startup indique qu’elle mesure une baisse de 30 % de l’empreinte mémoire du graphe HNSW, sans dégradation notable des performances. Ces vecteurs peuvent être désormais filtrés par noms, ce qui permet – par exemple – de trier des collections de vecteurs contenant à la fois des images et du texte.