EVA : Scienta Lab consacre son modèle monde aux maladies auto-immunes
Scienta Lab, une jeune pousse parisienne met à profit des modèles de fondation pour tenter d’accélérer la découverte de traitements contre les maladies auto-immunes et inflammatoires. Pour ce faire, elle a entraîné EVA, un « modèle monde » du système immunitaire.
Fondée en 2021 à Paris, Scienta Lab porte une double spécialité : les maladies auto-immunes et inflammatoires, ainsi que l’Intelligence artificielle. La société a levé 4 millions d’euros en 2023.
« Dans le cadre de mon expérience professionnelle, j’ai toujours travaillé sur des traitements indiqués en immuno-inflammations », relate Camille Bouget, cofondatrice et CEO de Scienta Lab.
Après un doctorat en pharmacie, Camille Bouget a obtenu un master à l’ESSEC avant de travailler comme responsable marketing chez Sandoz, Sanofi et Galapagos.
« Ces maladies, qui affectent 10 % de la population mondiale, résultent d’une suractivité du système immunitaire », affirme Camille Bouget.
L’on peut citer la polyarthrite rhumatoïde, le lupus, le psoriasis, la maladie de Crohn, ou encore la dermatite atopique.
Des groupes comme Sanofi ont commencé à développer des algorithmes pour prédire l’efficacité des médicaments chez les patients de ces maladies. Et ce fut le déclencheur pour créer Scienta Lab.
Elle a lancé la société avec Julien Duquesne, directeur technique chez Scienta Lab, et Vincent Bouget, directeur scientifique de la startup. Les deux hommes se sont rencontrés sur les bancs de CentraleSupélec.
Problème, malgré une croyance répandue, « il y a très peu de données » dans le cadre du développement pharmaceutique, signale Julien Duquesne.
Le paradoxe des données biopharmaceutiques
Il faudrait plutôt parler d’un paradoxe. Les essais cliniques sont réalisés sur des cohortes relativement petites de patients.
« Avant cela, les molécules sont testées sur quelques souris, trois à cinq généralement », explique-t-il. « Il faut arriver à extraire des signaux de très peu d’échantillons comportant des volumes importants de données. Trouver l’aiguille dans la botte de foin ».
À ce jeu-là, les méthodes traditionnelles de machine learning et d’IA ont révélé leurs limites, considère le directeur technique.
En parallèle, les LLM et les modèles de fondation se sont imposés comme un moyen de préapprendre des connaissances, généralement à partir de texte, rappelle-t-il.
« Nous, nous avons développé des modèles spécifiques à l’immunologie pour extraire des signaux pertinents de petits jeux de données ».
Pour ce faire, Scienta Lab n’utilise pas de textes à proprement parler, mais des données transcriptomiques, cliniques et histopathologiques. Elles sont principalement des microarrays (puces d’ADN), des séquences d’ARN, des profils de cellules individuelles et des images de coupes tissulaires numérisées (Whole Slide Images).
Un modèle monde des systèmes immunitaires de l’Homme… et de la souris
La startup exploite des données propriétaires (cohortes obtenues auprès d’hôpitaux, d’essai clinique, etc.) et disponibles publiquement. Les échantillons proviennent à la fois d’humain et de souris.
« Cela nous permet d’entraîner ce que d’autres appellent des “World Models”. Ils permettent d’obtenir une compréhension du fonctionnement de systèmes immunitaires, et de transférer des signaux observés chez les souris chez l’homme avant d’effectuer des prédictions », explique Julien Duquesne.
C’est ce qui a donné naissance à EVA, un « modèle de fondation multimodal et interespèces d’immunologie et d’inflammation ». Il s’agit d’un modèle préentraîné.
« Notre modèle EVA est entraîné sur l’ensemble des pathologies auto-immunes d’intérêt », précise Camille Bouget. « La quasi-totalité des maladies auto-immunes partage 15 à 20 voies biologiques. La maladie diffère seulement par l’organe affecté », poursuit-elle. « EVA regroupe ces signaux pour comprendre pourquoi elles affectent différents organes ».
Techniquement, EVA est un système basé sur une architecture Transformer. Il est doté au total de 440 millions de paramètres. EVA est composé d’un encodeur de 300 millions de paramètres consacré à l’expression des gènes, EVA-RNA, et d’un encodeur-vision (sur base ViT-B/Hibou-B) de 86 millions de paramètres, EVA-H, dédié à l’histologie. Environ 55 millions de paramètres supplémentaires sont consacrés à la fusion des embeddings des deux encodeurs à travers une couche d’attention intermodale.
EVA-RNA a été entraîné sur un jeu de données d’expressions de gènes masquées contenant plus de 545 000 échantillons issus des observations chez les humains et les souris pour un total de 16,1 milliards de tokens. Environ 11,8 milliards d’entre eux proviennent de séquences d’ARN en masse chez les souris (contre 1,7 milliard de tokens pour les humains). Avec les passes successives, EVA-RNA a traité 330 milliards de tokens lors de cet entraînement.
EVA-H, lui, a été préentraîné à partir de 20 millions de coupes histologiques couvrant plus de 50 tissus et maladies. Le modèle a vu au total 1 million d’images de tissus organiques.
« Ces données avant/après traitement permettent d’obtenir une notion de causalité et de simuler les effets thérapeutiques », résume Julien Duquesne.
Au total, l’entraînement a nécessité deux semaines de calcul sur le supercalculateur Jean Zay du GENCI (IDRIS). La startup a eu accès à une trentaine de GPU H100 et A100 à travers deux bourses de recherche.
Accélérer la découverte des bonnes molécules
D’après les explications de Camille Bouget, lors de la conception d’un traitement, un laboratoire pharmaceutique recherche des molécules et en met plusieurs en compétition pour trouver un candidat à un traitement. S’ensuit une phase d’optimisation de ce candidat. Elle est appelée recherche préclinique. Elle vise à formuler le futur médicament de la meilleure manière possible avant de l’administrer à l’homme, durant les essais cliniques.
« La technologie de Scienta Lab s’applique à plusieurs étapes du processus de recherche et développement, mais l’on observe le plus grand niveau d’attrition lors de la transition des phases précliniques à clinique », déclare-t-elle. « Jusqu’à la fin de la phase préclinique, les laboratoires optimisent un candidat médicament testé sur des souris et cellules souches. Avant l’essai clinique, les chercheurs n’ont jamais d’information sur les effets de ce candidat sur l’Homme ».
Scienta Lab affirme donc apporter une « brique intermédiaire » afin d’effectuer des simulations « in silico » (au moyen d’un ordinateur) sur une reproduction du système immunitaire, EVA. « Cela permet d’obtenir des informations supplémentaires sur la molécule avant de la tester chez des patients ».
D’après les évaluations concoctées et menées par Scienta Lab sur 39 tâches relatives au travail des laboratoires pharmaceutiques, EVA s’en sort mieux que ses compétiteurs, scGPT, et BulkRNABert. En outre, EVA « peut estimer si une cible thérapeutique est susceptible de bénéficier aux patients atteints d’une maladie donnée […] sans aucune donnée d’entraînement spécifique à la tâche ».
« Sur six maladies immuno-inflammatoires et 28 médicaments, EVA distingue les traitements ayant démontré un bénéfice clinique de ceux qui n’en ont pas », ajoute la startup, dans un billet de blog.
« Ouvrir la boîte noire » : des efforts d’explicabilité nécessaires
Conscient que la difficile explicabilité des réseaux de neurones est un frein pour le secteur biopharmaceutique, Scienta Lab dit investir dans ce domaine. « La plupart des clients sont moins intéressés par la prédiction du modèle que par les éléments qui ont influencé sa décision », estime Julien Duquesne.
« Pour faire cela, nous ouvrons la boîte noire, nous observons les neurones et nous appliquons des méthodes pour le rendre plus explicable », affirme-t-il.
Plus précisément, Scienta Lab a mis en place des capacités « d’interprétabilité mécanistique ». Inspirée par Anthropic, elle a entraîné de manière non supervisée un autoencodeur clairsemé. Il doit décomposer les activations des réseaux de neurones en concepts lisibles par les humains. Ces concepts peuvent ensuite être associés aux connaissances exprimées par les immunologues et aux données en entrée. Cette approche n’est pas infaillible et n’ait mis en pratique que depuis trois ans, mais elle commence à faire ses preuves.
Une personnalisation suivant les besoins des laboratoires
Scienta Lab est consulté pour répondre aux questions scientifiques de ses clients. Par ailleurs, certains laboratoires peuvent demander d’expérimenter EVA en interne, en achetant la licence du modèle.
En outre, EVA peut être fine-tuné en fonction de la question posée par un laboratoire pharmaceutique. « EVA est personnalisé selon la pathologie étudiée et l’étape de développement du médicament », souligne Camille Bouget.
Cela peut être la simulation des molécules en compétition, la « traduction » des effets du traitement sur la souris chez l’homme, ou encore la prédiction des effets d’un traitement sur une plus grande cohorte.
Puisque la plupart des poids sont gelés lors de ce réentraînement, un seul GPU en cloud ou sur site suffit pour l’opération. « Les coûts de réentraînement et d’exécution sont raisonnables », dixit Julien Duquesne. « Nos clients n’ont pas besoin d’énormes clusters à disposition ».
Actuellement, les prédictions des séquences ARN, les embeddings des coupes tissulaires peuvent être combinés avec des données d’observation cliniques. D’autres « modalités » seront intégrées, à savoir des données protéomiques (structure des protéines), métabolomiques (analyse des métabolites et des cellules) et de transcriptomiques spatiales (combinaison de l’expression des gènes avec l’information spatiale des cellules ou des tissus). « Cela conditionnera le nombre de maladies que nous sommes capables de modéliser », résume Julien Duquesne.
Pour l’instant, le modèle EVA est modulaire. L’encodeur EVA-RNA est disponible publiquement sur Hugging Face (sous une licence propriétaire académique) depuis le mois de février 2026.
Scienta Lab prévoit d’utiliser son jeu de données pour entraîner des variantes d’EVA-RNA doté de 500 millions, 1 milliard, voire 10 milliards de paramètres. « À volume de données équivalent, nous observons que les performances augmentent de manière presque linéaire en ajoutant des paramètres, ce qui est très encourageant », signale le directeur technique. « Il y a de la place pour de l’amélioration ».
Reste à voir si elle trouvera suffisamment de données pour suivre cette mise à l’échelle.
La startup a également mis au point un serveur MCP afin d’activer son modèle EVA et d’en interpréter ou compléter les résultats avec les modèles Claude d’Anthropic.
Le monde biopharmaceutique étant très secret, la plupart des échanges avec les clients de Scienta Lab sont confidentiels. La startup a pu toutefois communiquer sur ses travaux avec le laboratoire nantais OSE Immunotherapeutics, spécialisé dans les maladies auto-immunes et l’oncologie.
« Les résultats obtenus concernant les maladies immuno-inflammatoires de l’intestin ont permis de renforcer la crédibilité scientifique de notre technologie », indique Camille Bouget. « Nous sommes dans une phase d’expansion commerciale ».
Si la startup a commencé sa prospection en France et en Europe, elle entend cibler le marché américain. « 55 % des laboratoires pharmaceutiques concernés sont installés à Boston ou en Californie », renseigne Camille Bouget.
