Issue de la fusion entre Ciba-Geigy et Sandoz, Novartis est un poids lourd de l’industrie pharmaceutique. En 2021, le groupe employant 110 000 collaborateurs à travers le monde revendiquait un chiffre d’affaires de 51 milliards de dollars. Il notait avoir dépensé un peu plus de 9 milliards de dollars en recherche et développement.

Recherche médicamenteuse, essais cliniques, fabrication, logistique… Toutes ces activités chez Novartis sont génératrices de données. De beaucoup de données.

Dans le SI du groupe, les données consacrées à la R&D occupent à elles seules plus de 20 pétaoctets d’espace de stockage.

Cette réalité ne date pas d’hier. Et le groupe ne cesse de faire évoluer ses infrastructures.

En chine, Novartis déploie en partenariat de Tencent une application nommée AI Nurse. Elle est consacrée aux pronostics et au suivi des maladies cardiovasculaires. Plus de 5 000 professionnels de santé l’utilisent afin d’accompagner 300 000 patients à travers 1 000 hôpitaux.

En février 2022, data42 était utilisée par 700 chercheurs environ, répartis dans trois entités de Novartis. Plus d’un pétaoctet de données y a été ingéré depuis plus de 3 000 systèmes sources. La plateforme rassemble pas moins de trois mille essais cliniques concernant environ 900 000 patients.

« [Ce sont] les principaux moyens de défense nous ayant permis de repousser et d’atténuer les risques pour nos essais cliniques pendant la pandémie mondiale, avec un impact limité sur nos opérations et nos échéanciers », indique le groupe sur son site Web.

De même, une équipe DevSecOps est responsable du développement et du maintien en condition opérationnelle de la plateforme. L’accès aux données et le provisionnement d’infrastructure ont été grandement automatisés.

Une « marketplace » transversale permet aux métiers et surtout aux data scientists de rechercher les jeux de données, les sources ou tout autre actif auxquels ils auraient accès. La place de marché joue le rôle d’une solution de gouvernance des données à l’échelle du groupe, et intègre des capacités de data lineage , de cataloging, de gestion de la qualité ou encore d’exploration de données.

Les données peuvent être transvasées dans une zone consacrée au « raffinement », c’est-à-dire à la curation et l’analyse prédictive et prescriptive des données. Enfin, ces données préparées ou analysées sont poussées dans des applications BI, d’IA ou de machine learning .

Cette plateforme est divisée en trois ensembles : il y a une « zone d’atterrissage » où les données et leurs modèles sont ingérés, avant d’être harmonisés, unifiés, et intégrés dans un MDM . Les données sont ainsi soumises aux règles métiers de Novartis.

« La plateforme est une architecture multicloud et multiproduit », indique Loïc Giraud. Elle est déployée sur plusieurs régions cloud AWS et Azure en Europe, aux États-Unis et en Chine. Selon une offre d’emploi du groupe publiée en février 2022, Novartis aurait augmenté son empreinte sur AWS de 200 %, et de 1 500 % sur Microsoft Azure.

« Nous avons une plateforme d’analytique globale à laquelle nous connectons plus de 80 sources de données majeures », affirme-t-il. « Elle est utilisée pour la recherche, les essais cliniques, le manufacturing – qui inclut la production, la logistique, les ventes et le marketing –, ainsi que les fonctions support : les achats ou encore la gestion RH ».

Comment Novartis mise sur Snowflake

L’un des cas d’usage concerne plus spécifiquement les activités commerciales américaines du groupe en direction des officines et des médecins. Ralenti par un paysage SI siloté et vieillissant, les équipes devaient effectuer des efforts importants pour lancer et suivre de nouvelles campagnes d’information. Les outils analytiques n’étaient plus adaptés à la situation, tandis que le lancement de nouveaux médicaments était de plus en plus difficile à prévoir.

Ce fut l’un des premiers cas d’usage envisagés au lancement de l’initiative Formula One, à la fin de l’année 2019. La survenue de la pandémie de la COVID-19 a bouleversé les habitudes de ses commerciaux habitués à rencontrer les responsables d’officines et les médecins. Il fallait faire évoluer les processus commerciaux pour continuer à informer les professionnels de santé aux États-Unis. L’un des objectifs était d’améliorer la segmentation de ces populations afin d’affiner les campagnes d’information.

« Le lancement de Data Exchange a changé beaucoup de choses pour nous ». Loïc GiraudGlobal Head Digital Delivery, Novartis

La même année, Snowflake annonçait le lancement de sa plateforme de partage de données, Data Exchange. C’est l’un des arguments qui a fini de convaincre les responsables de la plateforme de choisir le data warehouse multicloud.

« Le lancement de Data Exchange a changé beaucoup de choses pour nous », confirme Loïc Giraud.

Au-delà des efforts marketing visant à faire connaître les médicaments de Novartis, cette fonction d’échange de données renforçait des possibilités commerciales et accélérait un ensemble de processus, allant de la recherche à la commercialisation de molécules.

Novartis a donc revu la manière dont elle accédait aux données externes, en provenance de partenaires tels que IQVIA et Symphony Health. « Nous avons été l’un des premiers acteurs Big Pharma à miser réellement sur le système de partage de données de Snowflake », affirme Ed Scura, Head Solution Architecture chez Novartis, lors d’une session de la conférence Snowflake Summit 2022. « Là où nous mettions plusieurs semaines pour récupérer les données, cela ne prend plus que quelques jours ».

En ce qui concerne l’analytique, Novartis souhaitait que ses équipes profitent d’une expérience intégrée. Cela tombe bien : le système au cœur de Data Exchange permet de partager des jeux de données à l’aide d’un simple lien URL. Il fallait également que la qualité des données en provenance d’une centaine de flux soit au rendez-vous. « Nous avons intégré plusieurs centaines de vérifications de qualité avant même que les données atterrissent dans les mains des data scientists et des analystes », indique Ed Scura. Pour cela, les responsables de la plateforme issue du programme F1 ont combiné un framework développé en interne, l’ETL Matilion et des jobs Apache Spark servis par Databricks.

Les workbenchs analytiques, eux, sont formés d’une combinaison d’Amazon SageMaker, de Dataiku, et de R Maker, entre autres.

De leur côté, les métiers peuvent accéder à certaines des analyses via des applications Qlik Sense. « Nous sommes le plus gros consommateur de Qlik Sense. Nous avons 60 000 utilisateurs et plus de 500 applications Qlik », renseigne Loïc Giraud.

Il n’est pas rare de voir des plateformes analytiques permettant de combiner des sources de données internes et externes. Sauf que Novartis a déployé 300 pipelines de données – à la fois des flux ETL Matillion et des jobs Spark sur Databricks pour alimenter son data warehouse Snowflake. Ces flux sont connectés à une base de données orientées graphe – AWS Neptune – afin de les répertorier dans la marketplace interne.

À lui seul, le cas d’usage implique une couche d’un pétaoctet de données mise à disposition de plus de 1 000 utilisateurs aux États-Unis.

L’autre critère de choix qui a motivé le déploiement de Snowflake, c’est la performance, selon Loïc Giraud. Le groupe pharmaceutique a pu s’essayer à Snowflake dès 2017.

Après avoir migré ses données d’Hadoop vers AWS, Novartis s’est rendu compte qu’Amazon RedShift ne répondait pas à ses besoins de traitement de compensation des forces de vente. « Cela prenait beaucoup de temps. Les tests que nous avons menés avec Snowflake nous ont convaincus : nous n’avions jamais vu ce niveau de performance », assure Loïc Giraud. Le data warehouse cloud a ensuite été étendu à d’autres cas d’usage. « Nous avons commencé par l’analytique, mais nous nous sommes aperçus que Snowflake pouvait être utilisé à tous les niveaux », ajoute-t-il.