Andrey Armyagov - Fotolia

La NASA choisit un « moteur de recherche » français pour ses équipements

Le spécialiste français du cognitive search Sinequa a annoncé en fin d’année dernière avoir signé un contrat avec la NASA, ou plutôt avec son intégrateur SAIC. L’éditeur souhaite ainsi prouver aux marchés américains la pertinence de son produit.

Cet article est extrait d'un de nos magazines. Téléchargez gratuitement ce numéro de : Applications & Données: Applications et Données n°7 : LHC : le CERN teste un data warehouse autonome

Comme beaucoup d’entreprises, la NASA (National Aeronautics and Space Administration) rencontre des problèmes de recherche de documents et de données.

Dans des environnements où les informations sont à la fois structurées et non structurées, le traitement du langage naturel (NLP) apparaît de plus en plus comme une solution pour exploiter.

À ce titre, les entreprises et les agences gouvernementales s'équipent auprès d’éditeurs ou de cabinets de consultance. En France, c’est le cas par e de l’Autorité de Sureté Nucléaire (ASN). Dans le cadre de l’appel à manifestation Intelligence artificielle (une initiative menée par le gouvernement français), elle a fait récemment appel à Starclay pour mettre en place une solution d’analyse sémantique afin de parcourir plus de 22 000 documents d’inspection d'établissements équipés d'installations nucléaires.

La NASA choisit Sinequa pour le Marshall Space Flight Center

Aux Etats-Unis, la NASA a jeté son dévolu sur Sinequa, un éditeur français considéré comme un des leaders du marché du « Cognitive Search » par Forrester et par Gartner dans la catégorie « Insight Engine » depuis trois ans.

Concrètement, Sinequa propose une plateforme de recherche d’informations à la manière d’un Google. Elle indexe les données structurées et non structurées, puis son moteur de recherche permet de les retrouver dans les documents associés, de corréler les informations, puis d’afficher une réponse aux requêtes des utilisateurs. Ces informations peuvent également être envoyées vers un outil de traitement analytique ou de machine learning.

L’agence spatiale américaine est passée par l’un de ses intégrateurs agréés, SAIC (Science Applications International Corp.), un acteur réputé auprès des agences gouvernementales américaines (23 000 collaborateurs, plus de 6,5 milliards de chiffre d’affaires). SAIC a signé un contrat « portant sur le déploiement d’un service de gestion de connaissances », précise un communiqué de presse publié par Sinequa.

SAIC a réalisé un appel d’offres remporté par Sinequa qui a rempli toutes les conditions de la NASA, selon Alexandre Bilger, PDG de Sinequa. « La NASA a des contraintes [très fortes] de sécurité et de gestion des accès. Elle manipule des données assez complexes dont des données d’ingénierie issus d’outils PLM, par exemple. Ces paramètres ont fait que nous avons gagné l’appel d’offres », se félicite-t-il.

« Compte tenu de la sensibilité des données [de la NASA], l’un des différenciateurs de [notre] plateforme, est de pouvoir à la fois être déployée sur site et dans le cloud », ajoute Laurent Fanichet, vice-président marketing de l'éditeur français.

« Il y a de plus en plus de compétiteurs qui laissent de côté le "on premise" parce que l’ingénierie est plus complexe. [...] Nous proposons des installations sur site en plus du cloud, dans des environnements hybrides. Nos clients font même des migrations hybrides couplées à une approche multicloud. Ils ont des workloads chez AWS, GCP ou Microsoft Azure suivant leurs besoins. Il est très intéressant pour eux d’avoir une plateforme capable d’aspirer et de manipuler les informations stockées dans tous ces clouds en plus des données sensibles hébergées sur site », s'enorgueilli Alexandre Bilger.

Au début de l'année 2020, SAIC s’occupera de déployer la solution dans le Marshall Space Flight Center, à Huntsville en Alabama. Ce centre de vol spatial se charge des programmes spatiaux habités de la NASA. Depuis 2011, il développe le lanceur Space Launch System dont le premier vol est planifié pour 2021.

La plateforme française permettra d’explorer les données dans des rapports de conception et de recherche stockés depuis plusieurs décennies. Ces documents concernent par exemple des équipements et des pièces qui sont et seront envoyés dans l'espace.

Il faudra d’abord connecter tous les systèmes du centre dans lesquels se logent les données. Pour cela, Sinequa mise sur plus de 200 connecteurs maisons qui ingèrent les documents, les métadonnées ainsi que les politiques d’accès associées.

À partir de cette année, le déploiement sera étendu aux treize centres de la NASA. « Cela pourrait devenir l’un des plus grands comptes que nous avons signés aux Etats-Unis ».

Alexandre Bilger évalue la durée totale du projet de 6 à 8 mois, au vu des contraintes sécuritaires et de la complexité des cas d’usage. « Les déploiements les plus simples durent 1 à 2 mois », compare le dirigeant.

Ce travail au long cours incombe à SAIC. « Un tel partenaire intégrateur, fin connaisseur des problématiques des organisations gouvernementales peut nous ouvrir d’autres pistes dans des comptes sensibles sur lesquels nous aurions plus de mal à entrer en direct », assure le dirigeant français.

Ensuite, se posera la question du traitement du langage et plus particulièrement du vocabulaire utilisé par les ingénieurs de la NASA. Alexandre Bilger se montre confiant. « Plus le vocabulaire employé est précis et non-ambigu, plus il est facile de retrouver les informations dans des documents », explique-t-il. Sinequa utilise le modèle algorithmique de deep learning ouvert par Google : Bert. Celui-ci permet de faire du transfer learning et ainsi d'apprendre le corpus sémantique d’une entreprise ou d’une organisation.

Se faire une place aux Etats-Unis

Sinequa a signé un autre contrat important en 2019 : l’industriel pharmaceutique américain Pfizer. L’entreprise a reconduit et étendu l’utilisation de la plateforme dans le cadre de son activité de recherche.

« L’industrie pharmaceutique est également un secteur très demandeur de technologies qui permettent de gérer les données non structurées tout comme la finance et le manufacturing », affirme Alexandre Bilger.

Pour se développer aux Etats-Unis, Sinequa a annoncé une levée de fonds 23 millions de dollars en série B auprès de Jolt Capital et Troismer BVA en juillet 2019.

Pour approfondir sur Big Data et Data lake

Close