Stockage : le laboratoire SeqOIA passe aux SSD pour séquencer 6 000 génomes/an

Sélectionné par le gouvernement pour placer la France à la pointe des diagnostics « haut débit », le laboratoire a connu une frayeur quand son cluster géant de disques s’est mis à produire des fichiers corrompus.

Cet article est extrait d'un de nos magazines. Téléchargez gratuitement ce numéro de : STORAGE: Storage 34 – Les initiatives européennes pour stocker les données

SeqOIA, un laboratoire français de biologie médicale, spécialisé dans la médecine génomique, a finalement choisi de s’équiper d’une baie de stockage Universal Storage de Vast Data afin d’atteindre l’objectif que lui a fixé le ministère de la Santé : réaliser au moins 6 000 séquençages génomiques par an d’ici à 2025.

« Le séquençage d’un génome sert à identifier différents types d’évènements génétiques chez des patients afin de mieux caractériser leur pathologie et ainsi trouver une nouvelle ligne de traitements. Nous trouvons des explications génétiques à un cancer, par exemple, ou à des maladies rares. Et grâce à nos analyses, les médecins peuvent déterminer un traitement alternatif plus efficace, ou conseiller des familles chez qui il existe une pathologie en amont d’une procréation », explique Alban Lermine, le directeur des systèmes d’information et de la bio-informatique de SeqOIA.

En 2017, la France a décidé d’être championne dans le domaine, en mobilisant son système de santé autour d’un plan France Médecine Génomique 2025. L’enjeu ? Créer un réseau de plateformes de séquençage « très haut débit », afin d’être innovant dans la prise en charge des patients. Pour répondre à l’appel d’offres, l’Assistance Publique-Hôpitaux de Paris (AP-HP) et l’Institut Curie et l’Institut Gustave Roussy (IGR) ont combiné leurs compétences respectives.

C’est leur association – on parle de Groupement de coopération sanitaire (GCS) – qui a donné naissance au laboratoire SeqOIA en 2018. La première mission de SeqOIA était de lever les verrous technologiques.

Un cluster de stockage géant… qui s’écroule sous le nombre d’accès

« Le principe est que, pour chaque séquençage, il faut lancer plusieurs analyses sur un très grand volume de données. Dès 2018, nous avons donc déployé un cluster de stockage de 400 To, géré par le système Open source Lustre, qui est assez commun dans le monde scientifique. Ce stockage est accédé au moyen d’un réseau Ethernet 40 Gbit/s par 2 000 cœurs de processeurs, installés dans un cluster de calcul », indique Alban Lermine.

« Nous avons augmenté petit à petit la charge sur les serveurs de calcul : nous lancions les procédures pour un séquençage, puis pour deux en parallèle, puis trois… Quand nous sommes arrivés à quatre, le système s’est écroulé. »

L’équipe d’Alban Lermine est dépitée : les disques durs de son cluster de stockage n’arrivent plus à suivre le rythme des entrées-sorties des serveurs de calcul. En attendant que les têtes des disques finissent d’enregistrer leurs fichiers, Lustre met en cache tout ce qui arrive. Mais son cache n’est pas extensible. Alors, il écrit tout ce qu’il peut aussi vite que possible. C’est-à-dire des informations incomplètes. « Pour résumer, nous nous sommes retrouvés avec des fichiers corrompus », lâche le DSI de SeqOIA.

Dans un premier temps, l’équipe d’Alban Lermine songe à ajouter des nœuds de stockage, pour étendre la largeur de la bande passante. « Était-ce une bonne idée ? Nous n’avons même pas eu le loisir de nous le demander : notre fournisseur de stockage n’avait de toute façon plus de nœuds du même type à nous vendre. Nous nous sommes donc résolus à trouver une autre solution. »

Le défi : augmenter les débits, mais pas la capacité

Quand cette mésaventure arrive, nous sommes alors fin 2021. Depuis trois ans, SeqOIA s’est mis en place, a acheté son équipement médical, a installé son informatique, a mené des tests et, donc, est monté progressivement en puissance. Entretemps, le marché informatique a évolué. Notamment, le prix des baies à base de SSD, bien plus rapides que les classiques disques durs, a considérablement baissé.

« Le stockage Flash a ceci d’intéressant qu’il nous permet de décupler les débits sans pour autant augmenter l’espace de stockage. En effet, les 400 To dont nous parlons sont juste de l’espace de travail. Une fois les résultats obtenus, ils sont archivés ailleurs – sur un stockage objet Ring de Scality. Et nous repartons d’un cluster de stockage vierge pour lancer de nouveaux séquençages », précise Alban Lermine.

La DSI de SeqOIA part donc à la rencontre des fournisseurs. HPE, Pure Storage et Vast Data répondent à son appel d’offres.

« HPE nous a proposé une solution compliquée. Pure Storage avait un côté boîte noire. C’est-à-dire que nous retombions sur le même problème qu’avec les disques durs : ils nous proposaient une solution avec beaucoup plus de bande passante, mais si nous atteignions les limites de cette bande passante, alors nous serions obligés d’ajouter des baies complètes, avec du stockage en plus dont nous n’aurons jamais l’utilité. Notre stratégie est d’augmenter au fur et à mesure les traitements en parallèle pour accélérer les délais de séquençage, mais les données d’un génome, elles, elles n’augmentent pas ».

« En définitive, seul Vast Data a été en mesure de nous proposer une solution où nous pouvons ajouter des modules de gestion d’entrées-sorties sans pour autant augmenter le nombre de SSD », raconte notre interlocuteur.

Plus aucune erreur et, surtout, un objectif déjà atteint

Tous les rendez-vous se sont déroulés en novembre 2021. Moins de trente jours plus tard, SeqOIA signait l’installation d’une baie Universal Storage de Vast Data. En l’occurrence, sa capacité est de 500 To. Dans cette fourchette, Vast Data n’avait pas moins. Secteur public oblige, la baie est achetée au travers d’une centrale d’achat dédiée, UniHa.

Et c’est comme à l’ancienne : la baie est acquise une fois pour toutes, sans abonnement mensuel, sans leasing, sans toutes ces nouvelles formules commerciales que poussent de plus en plus les fournisseurs américains, sans jamais vouloir comprendre que le modèle n’est pas adapté aux secteurs publics européens dont les budgets changent chaque année. « Le prix d’achat comprend un contrat de support sur cinq ans, c’est tout ce qui nous importe », commente Alban Lermine.

Ce n’est pas son seul sujet de satisfaction. Les bénéfices de la nouvelle baie se font ressentir dès les premiers jours. « Non seulement les fichiers corrompus ont disparu, mais, surtout, nos temps d’analyse ont été divisés par quatre », se réjouit-il !

Il donne la mesure de ce bénéfice : « l’objectif donné par le gouvernement est d’atteindre 6 000 dossiers patients par an d’ici à 2025. L’année 2022 n’est pas terminée et nous en sommes déjà à 5 500. »

Pour approfondir sur SAN et NAS

Close