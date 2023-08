Neo4j a ajouté la recherche vectorielle et le stockage de vecteurs dans sa base de données orientée graphes. Son objectif ? Accroître ses capacités en matière de recherche sémantique.

La recherche vectorielle commence par la transformation de données non structurées, comme des textes et des images, en représentations numériques – vectorielles – pour leur donner une structure.

Une fois qu’une valeur numérique leur a été attribuée, les données non structurées peuvent être utilisées dans des recherches sémantiques afin que les utilisateurs puissent trouver des données similaires à l’aide d’algorithmes de recherche approximative du plus proche voisin (k-ANN).

Si ce type de technologie exploite les bases de données NoSQL, le traitement des vecteurs n’est pas la principale fonction des SGBD orientés graphes tels Neo4j, AWS Neptune ou encore TigerGraph.

Les bases de données orientées graphes doivent permettre d’élaborer des relations ou des connexions entrantes ou sortantes – nommées arêtes – entre des points de données – des nœuds.

Chaque nœud dispose d’un identifiant unique, à savoir une clé, pairé à un ensemble d’arêtes, des valeurs. Le tout permet de cartographier des relations à grande échelle entre des objets, des personnes, des transactions, etc. Cela s’avère particulièrement utile dans le déploiement d’outils de lutte contre la fraude, d’enquêtes sur des réseaux mafieux ou encore d’analyse des dépendances d’un SI. À l’inverse, une base de données relationnelle ne permet d’établir qu’une connexion à la fois.

La recherche vectorielle, pour faciliter l’exploration des graphes de connaissances

Avec cette technologie, il est également possible d’élaborer ce que l’on appelle un graphe de connaissances (knowledge graph). Cette sorte de réseau établit des connexions sémantiques entre des « entités du monde réel » : des mots, des concepts, des liens, ou encore des produits. Ces données hétérogènes peuvent être stockées dans de nombreux systèmes. L’un des graphes de connaissances le plus célèbre n’est autre que celui de Google Search, mais l’on peut également citer le travail d’Adeo sur le site Web de Leroy Merlin.

Pour rechercher les données, Neo4j fournit par défaut un langage de requêtes spécifique, Cypher. Il s’avère complexe à manipuler pour le commun des mortels.

Afin de simplifier les déploiements dans les applications, Neo4j propose depuis quelques années de déployer un index de recherche plein-texte, issu du moteur Apache Lucene. Or, cette librairie, bien qu’elle permette d’effectuer des recherches approximatives, s’appuie principalement sur la correspondance de mots clés. Quand il s’agit d’explorer des informations cartographiées dans un vaste réseau de données, tenter de trouver le terme qui permettra de mettre en valeur les liens les plus intéressants n’est pas chose aisée.

La recherche vectorielle, elle, permet de trouver des contenus sémantiquement similaires à travers des vecteurs (générés à l’aide de modèle NLP et de grands modèles de langage) dont on mesure la distance à l’aide de formules mathématiques, comme la similarité cosinus et la distance euclidienne.

L’index HNSW (Hierachical Navigable Small World) implémenté à travers Lucene dans la plateforme Neo4j permettrait d’accélérer grandement la recherche d’informations dans les graphes de connaissances ou des collections de documents.

Neo4j assure qu’un de ses clients, une firme d’assurance, aurait accéléré les requêtes de ses clients de 90 %. « Une banque mondiale a augmenté de 46 % l’efficacité de l’examen des contrats juridiques en déployant la recherche par similarité vectorielle pour extraire avec précision les clauses clés dans des ensembles massifs de documents », ajoute l’éditeur.

Toutefois, l’éditeur ne dit pas si ces performances sont uniquement liées à l’index HNSW ou si elles résultent de l’usage de plusieurs types d’index, une des possibilités de Neo4j, bien que gourmandes en stockage et en calcul.

Néanmoins, une base de données capable de stocker et de requêter de tels vecteurs permettrait d’améliorer la précision des réponses d’un modèle d’IA générative. Une aubaine pour l’éditeur.