Minerva Studio - Fotolia

Sinequa optimise son moteur de cognitive search pour le cloud

Lors de ses rencontres annuelles, Sinequa, l’éditeur d’une solution de recherche cognitive, a déroulé sa feuille de route couvrant son actualité technique jusqu’à l’année prochaine. Sinequa veut faciliter les déploiements et les développements sur sa plateforme tout en améliorant les capacités de son moteur de recherche intelligent, sans oublier de réduire les coûts d’exploitation pour lui et ses clients.

par

Gaétan Raoul, LeMagIT

Publié le: 15 oct. 2020

L’éditeur français Sinequa s’est fait un nom en proposant une solution de cognitive search. Il propose un moteur de recherche dit intelligent, capable d’interroger toutes ou parties des données d’une entreprise en langage naturel.

Lors de son événement « Les rencontres Sinequa », plusieurs clients dont Alstom, EDF et Société Générale, ont expliqué leur utilisation de cette suite logicielle. Alstom l’a déployée dans douze applications différentes, tandis que la Société Générale en a fait son moteur de recherche d’entreprise. Par ailleurs, Sinequa générerait « pratiquement » la moitié de ses revenus aux États-Unis, selon Fabrice d’Irumberry de Salaberry, son COO.

« Nous essayons de répondre à des cas d’usage hétéroclites. Chaque grand groupe est unique, même dans des domaines similaires, ils ont des projets sensiblement différents », assure Alexandre Bilger, PDG de Sinequa. « Nous démarrons souvent sur un projet avec les clients, et au fil des années, nous en déployons deux, trois, quatre, dix, vingt, trente, quarante », illustre-t-il.

Cela expliquerait en partie pourquoi 35 % des effectifs de l’éditeur travaillent à la recherche et au développement.

La feuille de route dévoilée le 14 octobre 2020 doit donc couvrir un grand nombre de sujets. Le maître mot pour l’éditeur : flexibilité. Et pourtant, ce n’est pas chose aisée sur le papier. Les clients du spécialiste de la recherche cognitive sont en pleine transition vers le cloud, mais ne veulent pas non plus décommissionner complètement leurs infrastructures sur site. Ils sont également dépendants de contraintes de sécurité importantes. De son côté, l’éditeur souhaite moderniser sa plateforme afin de suivre l’évolution des SI de ses clients.

« Nous ne proposons pas une brique qui remplace des produits existants, mais une glu. Nous sommes donc obligés de suivre les évolutions de toute l’industrie informatique, aussi bien en termes de connectivité, de connecteurs, d’enrichissement dans certains produits, etc. », remarque Alexandre Bilger.

Cet été, Sinequa a déjà présenté une première évolution technique de sa plateforme en adoptant une architecture Shared-Nothing dans laquelle chaque nœud d’un cluster est cloisonné, c’est-à-dire qu’il ne partage pas de ressources de stockage ou de calcul avec les nœuds voisins. Outre, un avantage en termes de sécurité, cette approche doit surtout offrir une meilleure élasticité pour déployer la plateforme sur site et dans le cloud.

« Nous voulons proposer une plateforme complètement distribuée qui n’a pas de dépendance entre ces différents silos que sont les infrastructures cloud et on premise. »

Alexandre BilgerPDG, Sinequa

« Nos grands comptes ont tendance à ne pas choisir un seul fournisseur et ne migrent pas sur le cloud d’un coup. Nous voulons proposer une plateforme complètement distribuée qui n’a pas de dépendance entre ces différents silos que sont les infrastructures cloud et on premise » vante le PDG.

Flexibilité de déploiement

Dans cette démarche de facilitation, Sinequa veut désormais proposer des images containérisées pour AWS, Microsoft Azure et Kubernetes. Par ailleurs, il a adopté le cadriciel (framework) .Net Core pour faciliter ce passage dans le cloud. À noter qu’en mars 2020, l’éditeur a lancé une offre sur la marketplace d’AWS pour connecter son moteur cognitif aux services du géant du cloud.

Le cloud offrirait aussi un moyen de libérer les infrastructures et faire baisser les coûts, selon le dirigeant. « La partie connectivité et l’analyse de certaines données ne sont utilisées que de temps en temps. Avec le cloud, nous pouvons allouer des ressources de manière temporaire et cela peut réduire la facture de 30 à 50 % chez nos clients pour exécuter notre plateforme », promet-il.

« Sinequa n’est que l’écho de toutes les informations de l’entreprise », rappelle son PDG. Cependant, les sources de données évoluent également. Sinequa entend proposer des connecteurs vers les dernières versions d’Alfresco, Nuxeo (GED et ECM), d’Office 365, de PTC Windchill (PLM), entre autres.

Ce moteur de recherche intelligent doit donc faire appel à des techniques de data science de plus en plus sophistiquées, pour rester au goût du jour. Jusqu’alors Sinequa utilisait des algorithmes pour analyser les signaux utilisateurs et l’intention derrière les requêtes. « Nous pouvions le faire avec nos analyses de langage naturel à base de systèmes experts ; depuis un an et demi, nous appliquons aussi des algorithmes de deep learning », déclare Alexandre Bilger.

Sinequa implémente des techniques de deep learning

Capture d’écran des rencontres SInequa

Les techniques d’apprentissage profond doivent améliorer la possibilité d’obtenir une réponse exacte à une question en ne pointant pas un article ou un document comme pourrait le faire un data catalog, mais l’extrait d’un document qui comprend la réponse à une question, à l’instar de ce que propose aujourd’hui Google sur des sujets plus généralistes.

« Nous avons développé un algorithme de passage ranking, qui a la capacité de détecter le plus rapidement et le plus intelligemment possible qu’un passage contient la réponse attendue », précise Alexandre Bilger.

« Un client qui gère des documents de taille importante veut d’abord trouver l’information qui l’intéresse ; l’extrait le plus pertinent a parfois plus d’importance que le document en lui-même », ajoute-t-il.

Sinequa intégrera cet algorithme comme un module au sein de sa plateforme au début de l’année 2021, sous le nom de Neural Search. Celui-ci ne remplace pas le moteur de recherche « classique », mais le complète et permet d’améliorer la recherche là où les systèmes experts NLP sont moins pertinents. À l’inverse, la technologie existante de l’éditeur répond parfois mieux à certaines questions. « Dans la prochaine version de notre plateforme, nous avons marié les deux technologies. Nous pensons que c’est la bonne combinaison pour pouvoir gérer les cas possibles d’expressions de questions », explique Alexandre Bilger.

« La version 2 de l’algorithme de classification […] va bénéficier avec le deep learning d’une meilleure précision pour la catégorisation des objets »

Alexandre BilgerPDG, Sinequa

En revanche, des algorithmes de deep learning vont remplacer ceux de machine learning en place pour améliorer l’analyse des données. « La version 2 de l’algorithme de classification, qui depuis des années dépend de techniques d’apprentissage statistique, va bénéficier avec le deep learning d’une meilleure précision pour la catégorisation des objets, et nous aurons besoin de deux fois moins d’exemples pour l’entraîner », promet le dirigeant. « Nous allons travailler à l’avenir à réduire le nombre d’exemples nécessaires pour ce faire, car c’est l’humain qui doit gérer cet apprentissage ». Ce choix permet aussi de réduire les coûts de formation des modèles.

Plus de briques sur étagère pour les développeurs

De plus, Sinequa va proposer des « NLP Skills » dès le mois de décembre 2020. « C’est l’aboutissement de dix ans d’analyse du contenu des documents chez Sinequa. Cela regroupe tous nos outils d’analyse en un seul pour les associer simplement. Nous avons également utilisé le deep learning pour faciliter l’extraction des relations entre les entités métiers nommées. Nous pensons que nous allons pouvoir livrer plus de capacités sur étagère dans le produit, mais également faciliter pour nos clients l’enrichissement de leurs contenus métiers », assure Alexandre Bilger.

En ce sens, l’éditeur propose le framework SBA (Search-Based Application) pour concevoir des interfaces visuelles spécifiques aux cas d’usage des organisations. « Nous voulons faciliter le développement d’applications personnalisées pour les développeurs de nos clients et ceux de nos partenaires qui ne connaissent pas Sinequa », indique le dirigeant. Le framework est enrichi de composants open source préintégrés afin « d’accélérer les développements sans partir de zéro ». Il se connecte au reste de la plateforme de Sinequa via une API REST, et est développé à partir de librairies Angular dont les composants permettent de modifier des contrôleurs TypeScript et des templates HTML.

Après avoir sorti une interface « précâblée » pour l’enterprise Search (nommée vanilla-Search), Sinequa va déployer Pepper, une UI pensée comme un moteur de recherche pour les analystes. La liste de résultats est complétée par une série de visualisations (diagrammes, courbes, graphes) de données pour expliquer la décision ou comprendre les relations entre les données recherchées. Ensuite viendront des applications dédiées au RGPD, au support client et à la vision 360 degrés des données d’une entreprise.

Pour rappel, AWS a lancé en début d’année une solution concurrente nommée Kendra. De leur côté, les éditeurs de solutions BI et de data cataloging essayent de suivre la même approche. Microsoft, lui propose une brique de cognitive search dans la suite Office 365. Sinequa est davantage mis en concurrence avec d’autres acteurs de l’enterprise search que sont Attivio, Coveo, IBM (avec Watson Discovery) ou encore Mindbreeze.

Sinequa optimise son moteur de cognitive search pour le cloud

Flexibilité de déploiement

Sinequa implémente des techniques de deep learning

Plus de briques sur étagère pour les développeurs

Pour approfondir sur Intelligence Artificielle et Data Science

Avec Gemini, Google veut rappeler qu’il est le patron du « Search »

Hallucinations des IA : Giskard soupçonne une fiabilité tronquée au nom de l’utilité

Agentspace : chez Google, l’Enterprise Search avance sous couverture

Enterprise Search : le Français ChapsVision s’empare de Sinequa