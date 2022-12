Indexer les contenus des fichiers, non pas à partir des vocables qu’ils contiennent, mais à partir de leur sens, telle est la promesse étonnante de Nuclia. Cette startup espagnole, rencontrée par LeMagIT à l’occasion d’un événement IT Press Tour plus tôt ce mois-ci, prétend avoir développé un moteur qui « vectorise » l’information, indépendamment des langues et des formats de fichiers que peut manipuler une entreprise.

« Un moteur de recherche classique va vous lister les documents en anglais qui contiennent les mots anglais de votre recherche. Le nôtre est capable de comprendre votre question et de vous montrer la réponse dans les documents en français ou en italien que vous possédez, ou même d’y répondre directement en résumant le contenu des documents qui contiennent la réponse », explique Eudald Camprubí, le PDG et co-fondateur de Nuclia.

Il donne un exemple. Une recherche « date de création de Nuclia » engendre sur un moteur classique une liste de documents qui contiennent ce bout de phrase. Le moteur de Nuclia donne la date exacte et propose des liens qui pointent directement vers l’endroit précis – le paragraphe, la phrase – des documents qui parlent de cette information.

Comprendre le sens des textes, des documents scannés et des bandes-son L’autre point fort de Nuclia est qu’il fonctionne aussi avec des fichiers image – il dispose d’un moteur d’OCR pour en extraire les textes, par exemple sur des documents scannés en PDF – et des vidéos. Dans ce dernier cas, il extrait la bande-son et la convertit en texte avec un moteur interne de type Speech-to-Text. Mieux, le moteur de Nuclia n’est pas limité aux documents stockés localement. Il analyse tous les contenus atteignables via une adresse. « Si vous référencez des espaces de stockage en ligne, en partage de fichiers ou en mode objet S3, ou même des vidéos YouTube publiques, dans le pool de données à indexer, alors notre moteur les analysera et les englobera dans sa base de connaissance. Ainsi, parmi les réponses qu’il vous donnera, vous obtiendrez des liens vers un paragraphe dans un document Word, vers une page dans un document PDF ou vers une séquence précise dans une vidéo » détaille Eudald Camprubí. En revanche, il faut que le contenu corresponde à du texte. Le moteur de Nuclia n’est pas capable d’interpréter le sens d’une photo ou d’une scène filmée. Techniquement, Nuclia se compose d’abord d’un client – Nuclia Desktop – à installer sur une machine qui accède au stockage à indexer. Outre servir ensuite de moteur de recherche local, le client aspire les données pour les livrer à un extracteur de données qui comprend tous les moteurs d’ouverture de fichiers, d’OCR, de conversion audio vers texte et de traduction des langues. Un second moteur « vectorise » l’information, classe ses découvertes, génère des résumés. L’ensemble des résultats est stocké dans une base de données maison, Nuclia DB. Celle-ci est interrogeable par API – Nuclia propose un SDK pour développer soi-même des applications compatibles, y compris un SDK pour bâtir des interfaces à la souris – ou par requêtes en langage naturel. Accessoirement, Nuclia DB est disponible en Open source. Tous ces modules peuvent fonctionner sur site, ou en ligne.