ustas - stock.adobe.com

Quels sont les enjeux du stockage sur ADN ?

Avec le stockage sur ADN, les chercheurs ont pour objectif de faire tenir un datacenter dans le creux de la main. Mais pour l’heure, cela reste un processus chimique dont la mise en œuvre coûte cher.

La promesse des technologies informatiques développées autour de l’ADN est de bientôt stocker 1 exaoctet (1 Eo) de données dans un volume de 1 mm³. Cet exploit pourrait être une réalité d’ici quelques années à peine. Le secret ? Stocker des données en n’utilisant rien de moins que le code du vivant.

Grâce aux progrès actuels de la science, un système de stockage sur ADN peut faire tenir 10 Zo (zettaoctets) de données sur un équipement de la taille d’une boîte à chaussures. C’est ce qu’affirme John Monroe, analyste du cabinet de conseil Gartner : « ces magnifiques codes de quatre lettres pourraient bien devenir le moyen idéal de stocker les données numériques. Leur capacité de stockage est énorme, et leur potentiel dépasse de loin celui de toute autre technologie d’archivage. »

Les chercheurs estiment que les données stockées dans de l’ADN pourraient se conserver entre 700 000 et 1 million d’années, soit bien plus que la durée de vie des technologies de stockage actuelles. D’après John Monroe, l’ADN remplacera les bandes ou les lecteurs optiques dans le cadre du stockage hors bande, c’est-à-dire celui qui est archivé dans un endroit qui n’est pas connecté au réseau.

Très robuste, l’ADN résiste aussi bien au chaud qu’au froid. Une fois les informations codées et synthétisées dans l’ADN (phase d’écriture), celui-ci ne nécessite aucune forme d’énergie pour conserver les données. Le séquençage et le décodage de l’ADN (phase de lecture) convertissent les séquences de quatre nucléotides sous une forme assimilable par un ordinateur.

Résoudre le problème du coût

Cependant, malgré les promesses de cette technologie, nous sommes encore loin de sa mise en pratique. Pour commencer, le secteur informatique doit élaborer des équipements de stockage de l’ADN fonctionnels et pouvant être produits à grande échelle. « Personne ne sait encore très bien à quoi ces équipements ressembleront », lance John Monroe.

« Personne ne sait encore très bien à quoi ces équipements ressembleront. »
John MonroeAnalyste, Gartner

Selon lui, ils auront la taille d’un appareil électroménager. D’autres annoncent l’équivalent d’un autobus. Microsoft a déjà développé, avec l’université de Washington, une machine de codage et de récupération sur ADN de taille intermédiaire. Ce n’est encore qu’un prototype, mais il est loin de rentrer dans la baie 19U d’un datacenter. Dans ce prototype – et comme cela est généralement le cas –, le codage et le séquençage de l’ADN sont des processus chimiques. D’ailleurs, le prototype développé conjointement par Microsoft et l’université de Washington ressemble davantage à une création de laboratoires qu’à un équipement informatique conventionnel.

Cette approche chimique va de pair avec un coût élevé. Le séquençage de 1 Mo de données coûte environ 3 500 $ (3 000 €). Et même s’il est à la baisse, il reste bien supérieur au coût d’écriture du même volume de données sur un support classique. Gartner estime que cette technologie ne se généralisera que lorsqu’elle reviendra à moins de 0,01 $ par gigaoctet.

Une première piste pour réduire le coût est de changer de technique ; le Wyss Institute de l’université de Harvard travaille sur un processus différent, appelé synthèse enzymatique d’ADN. Sa méthode repose sur un appareil électronique, et non plus chimique cette fois, capable de synthétiser des données dans de l’ADN. L’électronique devrait accessoirement permettre de paralléliser les accès pour augmenter les performances.

Dans tous les cas, les chercheurs sont convaincus de pouvoir surmonter les barrières financières et pratiques, parce qu’aucune autre technologie ne permet pour l’instant de stocker autant de données que l’ADN.

Les autorités publiques sont impliquées

Comme on pouvait s’y attendre, les gouvernements et les agences de renseignement s’intéressent de près au stockage sur ADN. Ainsi, l’agence américaine Intelligence Advanced Research Projects Activity (IARPA), qui fait partie de l’ODNI (Office of the Director of National Intelligence), dirige le programme MIST (Molecular Information Storage), qui vise à stocker 1 téraoctet de données et à savoir le relire dix fois en moins de 24 heures, pour un coût de 1 000 $.

Baptisé ADS Codex, ce système est disponible sur Github et brille par des fonctions avancées de correction d’erreurs. Les erreurs d’écriture sont en effet plus élevées lors du stockage sur ADN que pour un stockage numérique conventionnel. Et ce problème est aggravé par le fait que l’ADN se compose de séquences de quatre lettres, contrairement au système binaire des ordinateurs, composé de 0 et de 1.

L’Europe n’est pas en reste : le projet européen DNA Data Storage, coordonné par des chercheurs slovènes, vise à stocker 450 Po (pétaoctets) de données dans une seule molécule. Un datacenter tout entier pourrait ainsi potentiellement tenir dans une simple fiole de liquide. Ces chercheurs ont également étudié un autre avantage du stockage sur ADN : si le processus d’écriture sur ADN reste lent, une fiole pleine peut être répliquée en quelques heures seulement, pour un coût quasi nul et une faible consommation énergétique.

Bâtir un écosystème

Au-delà de la faisabilité du stockage sur ADN, les travaux portent aussi sur les aspects pratiques : notamment les standards. En 2020, des poids lourds du secteur informatique dont Microsoft et Western Digital, ont formé la « DNA Data Storage Alliance » avec les entreprises de biotechnologie Twist Bioscience et Illumina, ainsi qu’avec des chercheurs universitaires.

L’objectif de ce consortium est de créer un écosystème viable autour du stockage sur ADN. Microsoft et d’autres membres de cette alliance soulignent que le stockage de données « froides », c’est-à-dire enregistrées une fois et lues très rarement, constitue l’application la plus engageante pour commencer.

Ensuite vient le stockage de données multimédia. L’an dernier, Twist a ainsi réussi à coder sur ADN un épisode de la série Netflix Biohackers avec un résultat plutôt correct. La perspective d’enregistrer efficacement des quantités illimitées de données, de les stocker à vie et de les répliquer rapidement pourrait séduire l’industrie du cinéma et d’autres secteurs artistiques.

Parmi les autres applications envisageables, citons le stockage de données médicales et juridiques, ou encore l’archivage réglementaire. Cette méthode pose néanmoins d’autres problèmes aussi bien normatifs que technologiques.

« Pour les données non réinscriptibles (WORM - write once, read many) ou non accessibles (WORN - write once, read never), il est essentiel que les données soient immuables », prévient John Monro. « Il faut être certain que ce qu’on enregistre aujourd’hui, par exemple l’image d’un cerveau, restera exactement identique dans 10 ans. »

Pour approfondir sur Architectures de Datacenters

Close