Recherche : Sanofi implémente une IA sur site pour éviter le cloud

Le laboratoire de recherche pharmaceutique vient de valider une maquette d’infrastructure sur site, qui lui permet de mieux encadrer ses projets d’IA qu’en cloud. Un point clé de ce projet était de déployer une infrastructure de stockage à côté des serveurs de calcul.

Pour des questions de gouvernance, de souveraineté et de maîtrise des coûts, le laboratoire de recherche pharmaceutique Sanofi a décidé de déployer des serveurs d’IA sur l’un de ses propres sites, afin d’analyser des données qui proviennent aussi bien de simulations en laboratoire, que de mesures cliniques, que de relevés dans les ateliers de fabrication des médicaments. Cette approche pose néanmoins l’enjeu de conjuguer une infrastructure centrale avec des données éparpillées aux quatre coins du monde.

Au départ, Sanofi a imaginé qu’il s’agissait juste d’une problématique de gouvernance des données.

« Au cours des dernières décennies, nous avons réalisé d’importants investissements pour mettre en place les technologies nécessaires à la mise en œuvre de ce que nous appelons les données FAIR, soit des données Faciles à trouver, Accessibles, Interopérables et Réutilisables », commence Pradeep Bandaru, directeur des plateformes et de l’IA chez Sanofi (en photo en haut de cet article), que LeMagIT a rencontré lors de la dernière conférence annuelle du fournisseur de stockage EverPure.  

« L’enjeu technique est de savoir tracer la provenance et le parcours des données que nous faisons entrer dans nos serveurs d’IA, de sorte à pouvoir auditer tout notre processus. »
Pradeep BandaruDirecteur des plateformes et de l’IA, Sanofi

Pradeep Bandaru explique que ce programme de gouvernance des données FAIR devient d’autant plus critique à mesure que Sanofi utilise des agents d’IA. Car ceux-ci fonctionnent par essence de manière autonome, il faut donc les mettre sur des rails et être en mesure de vérifier qu’ils ne sortent pas de ces rails.

« L’enjeu technique est de savoir tracer la provenance et le parcours des données que nous faisons entrer dans nos serveurs d’IA, de sorte à pouvoir auditer tout notre processus. Et, initialement, il s’agissait donc de centraliser la gouvernance de données qui, elles, se situaient dans le cloud, sur site, dans des succursales. »

Mais tout le programme de centralisation se heurte rapidement à des contraintes techniques.

« Nous nous sommes rendu compte que centraliser une très grande variété de scénarios nous demandait énormément d’énergie et nous coûtait beaucoup de temps. Donc nous avons changé notre fusil d’épaule. À présent, notre priorité pour concrétiser notre projet FAIR est de réduire les latences. Ce qui signifie commencer par regrouper nos données à côté de nos serveurs de calcul », dit Pradeep Bandaru.

Au début de l’année 2026, lui et son équipe se mettent alors en quête d’une solution de stockage directement connectable aux serveurs sur site et, tant qu’à faire, qui offre suffisamment de performances pour fonctionner à la vitesse de ces serveurs.

Une maquette qui sollicite énormément de bande passante

« Nous avons décidé de partir d’un premier cas d’usage : traiter avec l’IA les fichiers vidéo générés par un instrument complexe. À cette échelle, nous nous sommes contentés d’exécuter l’IA sur une station de travail équipée de GPU. Cependant, cette maquette était adéquate pour évaluer la faculté de différentes solutions de stockage à maintenir des communications en haut débit avec les GPU », raconte Pradeep Bandaru.

En l’occurrence, l’instrument génère des téraoctets de données – une succession d’images de molécules en très haute résolution – qu’il faut faire correspondre en temps réel aux cibles que ces molécules sont censées bloquer. Cela aboutit à des gigaoctets de résultats intermédiaires qu’il faut à nouveau soumettre à une IA pour obtenir des mégaoctets de résultats définitifs.

« Pour cadrer avec nos propres besoins de temps réel depuis nos propres instruments, nous avons travaillé avec un partenaire pour développer des logiciels adaptés à notre cas d’usage. »
Pradeep BandaruDirecteur des plateformes et de l’IA, Sanofi

Dans la première partie du processus, dite « Patch Motion Correction », les GPU servent d’abord à composer de nouvelles images et à réduire leur taille via des algorithmes classiques qui tirent parti de l’accélération de leurs circuits, ainsi que via des LLM non commerciaux. Dans la seconde partie, dite « estimation », les données réduites et leurs métadonnées sont soumises à des logiciels d’IA, principalement AlphaFold, pour prédire les propriétés physicochimiques, les structures et les motifs de protéines médicamenteuses.  

Sur le plan logiciel, Pradeep Bandaru précise qu’il n’utilise pas de logiciels vendus avec les GPU, comme pourraient l’être les modules NIM de la plateforme AI Enterprise de Nvidia. « En réalité, pour cadrer avec nos propres besoins de temps réel depuis nos propres instruments, nous avons travaillé avec un partenaire pour développer des logiciels adaptés à notre cas d’usage », dit-il.

Entre autres, rester neutre vis-à-vis des logiciels de Nvidia permet à Sanofi d’éviter de s’embarquer dans les technologies propriétaires de ce même fournisseur. Par exemple, le réseau qui relie la machine de calcul à son stockage est constitué de switches et de cartes réseau génériques, qui n’utilisent pas le protocole GPU Direct Storage de Nvidia.

Du point de vue du stockage, cette maquette nécessitait de supporter l’écriture d’une rafale d’images en haute résolution en provenance de l’instrument, ainsi qu’une succession de lectures et écritures par le GPU. Sachant que, s’agissant d’un flux continu, toutes ces étapes sollicitent en même temps la baie de stockage.

EverPure moins cher que NetApp

Une baie de marque NetApp, ainsi qu’une EverPure FlashBlade//S200 équivalente sont chacune testées pendant deux mois dans les conditions indiquées. Les machines sont équipées d’une capacité de 1 Po. Les connexions se font en 100 Gbit/s à tous les niveaux : entre la station de travail et la baie de stockage, comme entre l’instrument et la baie.

Pradeep Bandaru précise que des tests ont également été menés depuis un instrument similaire installé sur un autre site, lequel a été relié au premier via une fibre dédiée, elle aussi en 100 Gbit/s.

En première approche, le fait d’utiliser une baie de stockage contenant toutes les données à côté de la machine qui calcule ces données permet de traiter un lot d’images en 30 heures, au lieu de quatre jours en passant par le cloud.

« Au bout du compte, la baie EverPure FlashBlade S//200 s’est avérée moins chère et un peu plus performante que la baie NetApp », tranche Pradeep Bandaru, sans donner plus de détails.

Faire évoluer le calcul, sans avoir besoin de toucher au stockage

L’ensemble de la configuration – station de travail avec GPU et baie FlashBlade//S200 – est, selon le responsable de Sanofi, une appliance d’IA qui est amenée à croître en puissance de calcul. Il y aura davantage de modules similaires à la station de travail de test, chacun dédié à une IA précise, et davantage d’équipements réseau pour les interconnecter avec le stockage comme avec le reste des sites de Sanofi.  

« Nous imaginons une infrastructure en plusieurs tiers. Outre les modules dédiés à une IA, d’autres incarneront en quelque sorte la couche MCP », décrit Pradeep Bandaru. « Cette partie MCP fera fonctionner des LLM libres, comme Qwen et GLM, pour coordonner les appels MCP des outils de nos utilisateurs. Ces appels déclencheront différents types de modèles d’IA spécialisés en biologie moléculaire, en découverte de médicaments. »

La partie stockage ne devrait en revanche pas évoluer au-delà de la configuration déployée dans la maquette. « Notre idée est de faire fonctionner des IA jusqu’à remplir le Po de capacité de notre FlashBlade//S aux trois tiers. À ce moment, nous déchargeons le contenu de la Flashblade sur d’autres services de stockage, car ces résultats ne seront en quelque sorte plus que des archives consultables sans impératif de vitesse d’accès », indique le responsable de Sanofi.  

Sortir l’inférence du cloud

Le déploiement prendra du temps. « Notre travail actuel consiste surtout à écrire plusieurs agents, chacun avec des règles précises, de sorte à exécuter les outils les plus intelligents selon les éléments fournis dans les prompts de nos collaborateurs », dit notre interlocuteur.

« Ce sont sur les processus d’inférence qui concentrent l’essentiel des enjeux de coûts (notamment à cause du prix élevé des tokens en cloud) et de gouvernance. »
Pradeep BandaruDirecteur des plateformes et de l’IA, Sanofi

Cela dit, ces agents et ces prompts seront d’abord développés et testés dans le cloud, chez AWS, dans le cadre d’un programme plus vaste appelé SWEL (Scientific Workflow Experience Labs), et portés ensuite sur l’appliance sur site.

« Seuls les processus d’inférence que nous développons dans le cadre de SWEL seront in fine déportés sur site, pas les autres processus fonctionnels qui, à date, resteront en cloud. Parce que ce sont sur les processus d’inférence qui concentrent l’essentiel des enjeux de coûts (notamment à cause du prix élevé des tokens en cloud) et de gouvernance. »

« En revanche, il est essentiel de comprendre que ce premier déploiement constitue la fondation de l’IA physique, sur site, qui existera demain partout dans le groupe Sanofi. Nous mettons en place un processus et une infrastructure standards qui fonctionneront petit à petit pour tous nos laboratoires de recherche et tous nos sites de fabrication des médicaments », conclut Pradeep Bandaru.

Pour approfondir sur SAN et NAS