Celle-ci vise à proposer une « cartographie interactive des pathologies et des dépenses de santé » sur une période de cinq ans, de 2015 à 2020.

D’un côté, Data pathologies affichent les données concernant 57 maladies, traitements et épisodes de soins répartis en 17 groupes. De l’autre, l’initiative permet de visualiser les dépenses de santé de 66,3 millions de Français.

« Data pathologies permet de répondre à des questions comme : quels sont les effectifs de patients pris en charge pour ces différentes pathologies ? Comment évolue la prévalence ? Comment l’effectif est-il réparti sur le territoire français ? Quelles sont les dépenses remboursées affectées à chacune des pathologies identifiées ? », explique l’Assurance Maladie dans un communiqué de presse.

Ces données sont issues de 1,5 milliard de feuilles de soins, représentant un volume de dépense de 168 milliards d’euros. Elles proviennent du SNDS (Système National de Données de Santé).

Ces informations sont stockées dans le SNIIRAM (Système national d’information inter-régimes de l’assurance maladie), un entrepôt de données établi sur une infrastructure Oracle Exadata contenant plus de 200 To de données.

D’autres renseignements se trouvent originellement dans le PMSI (Programme de Médicalisation des Systèmes d’information). Ce SI administré par l’Agence Technique de l’information sur l’Hospitalisation (ATIH) accueille les données sur les parcours de soins des patients passés par les hôpitaux.

En l’occurrence, la CNAM a mis au point plusieurs algorithmes pour anonymiser les données, les chiffrer , puis identifier les pathologies et les dépenses associées à partir des factures et des feuilles de soins. Pour ce faire, les analystes s’appuient sur les outils SAS et R Studio.

La CNAM fait appel à Opendatasoft et WedoData

C’est la même plateforme qu’elle avait déjà utilisée pour mettre en exergue les données relatives à la vaccination contre la COVID-19, depuis le site Data Vaccin COVID, publié le 25 mai 2021. La CNAM avait alors découvert la solution via une centrale d’achats types UGAP.

« La CNAM avait une urgence pour communiquer sur la vaccination. Ils sont venus nous trouver », indique Jean-Marc Lazard, CEO et fondateur d’Opendatasoft. « Il y avait un peu de travail de mise en forme, mais les données étaient prêtes ».

Le projet Data pathologies a été soumis à l’éditeur quelques mois plus tard. « C’est un élément de la stratégie de la direction générale de la CNAM d’accélérer sa transformation numérique en passant notamment dans la diffusion de données d’un modèle statique à un autre plus interactif. Cela fait partie de la mission de service public de cette organisation », poursuit Jean-Marc Lazard.

L’éditeur a l’habitude de participer à ce type de projets. La caisse nationale de l’URSSAF (ex-ACOSS) a fait appel à lui pour ouvrir ses données au grand public et aux startups.

« Les directions des administrations se sont rendu compte qu’il y avait des outils sur étagère permettant d’aller relativement rapidement, d’itérer, réaliser des prototypes et impliquer des bêta-testeurs », affirme le PDG d’Opendatasoft. « Par la suite, quand il y a besoin d’effectuer des améliorations en réponse aux retours des utilisateurs, les équipes sont autonomes pour le faire ».

Le projet a été mis sur pied en quatre mois quand Data Vaccin COVID – plus évident à déployer – n’a réclamé qu’un à deux mois de développement.

Dans la mise en place de Data pathologies, la CNAM a tout de même été accompagnée par l’agence WedoData, qui développe une expertise autour du data storytelling.

C’est elle qui a fait en sorte de « simplifier » la visualisation des données issues de trois data sets en s’appuyant sur les outils Opendatasoft et la librairie open source Highcharts. WedoData a notamment conçu plusieurs filtres et vues afin de trier les données par poste de dépense, par effectif de patients, et par cause de comorbidités associées à chaque pathologie. Les jeux de données renseignent le sexe, la classe d’âge et le territoire d’origine (régions et départements) des patients. Le site permet d’observer les évolutions et de comparer l’occurrence des pathologies ainsi que les dépenses engagées entre départements.

« Nous travaillons régulièrement avec WedoData et d’autres agences qui non seulement sont capables de rendre intelligible des informations complexes sans trahir la réalité », souligne Jean-Marc Lazard. « Certains projets de data visualization sont très jolis, mais il n’est pas rare d’y déceler des biais visuels qui peuvent induire en erreur le public visé ».

Le portail open data de l’Assurance Maladie ne servira pas seulement aux données pathologiques et vaccinales, selon Jean-Marc Lazard. « Il y a beaucoup type d’informations que la CNAM peut partager, dont des données sur la répartition de l’offre de soins sur le territoire français, un autre rapport qu’elle effectue annuellement ».

Si Data pathologies vise un public large, la CNAM et Opendatasoft observent qu’il a un plus fort écho auprès des professionnels de santé, des professeurs de médecine ou encore les acteurs des collectivités territoriales. « Les professionnels témoignent du fait que cela les aide à contextualiser la connaissance sur leurs activités par rapport à leurs pairs œuvrant sur un autre territoire », note le PDG d’Opendatasoft.

Cela ne veut pas pour autant dire que la CNAM rafraîchira plus régulièrement ses données : un travail statistique respectueux des lois en vigueur demeure nécessaire pour cette administration.

En ce sens, tout comme l’instance Opendatasoft, les jeux de données agrégés mis à la disposition du public sont stockés sur 3D Outscale, le cloud souverain de Dassault Systèmes, qui est également certifié hébergeur de données de santé.