Archivage : où en est le projet Silica de Microsoft ?

Le projet Silica a pour but de stocker les données dans du verre. Son équipe dédiée chez Microsoft a aujourd’hui quatre domaines de recherche distincts.

En matière de recherche dans le secteur de l’informatique, les laboratoires sont notamment animés par la quête d’un nouveau support de stockage capable de conserver des archives plus efficacement, plus longtemps. LeMagIT avait déjà évoqué les travaux en cours sur le stockage des données dans l’ADN, notamment ceux de la startup française Biomemory. Dans l’Indiana, l’université de Purdue planche également sur une nouvelle génération de disques optiques, dits plasmoniques.

Le projet Silica de Microsoft consiste quant à lui à enregistrer les archives dans du verre de quartz.

Ce projet a commencé à faire parler de lui il y a quatre ans, quand Microsoft, en collaboration avec Warner Bros, a démontré qu’il était possible de stocker une version numérisée du film Superman de 1978 dans un disque de quartz de la taille d’un dessous de verre. Ce disque ne faisait que 2 mm d’épaisseur et 75 mm2 de surface, mais il pouvait contenir l’intégralité du film en haute résolution non compressée, soit plus de 75 Go de données. Désormais, Microsoft peut stocker jusqu’à 7 To de données dans un morceau de verre de la même taille.

Le projet Silica est présenté comme un système avant-gardiste de stockage d’archives pour le cloud. Ses chercheurs utilisent un laser pour écrire les données, ainsi que la microscopie et l’intelligence artificielle pour les lire. Le résultat est un support de stockage qui peut potentiellement durer des milliers d’années sans se dégrader.

Qu’est-ce que le projet Silica de Microsoft ?

Les technologies de stockage existantes atteindront bientôt leurs limites pratiques alors que la demande de stockage à long terme dans le cloud continue de croître à un rythme sans précédent.

La plupart des données froides sont actuellement stockées sur des bandes magnétiques, des disques optiques, des disques durs et, dans une moindre mesure, des SSD. Aucun de ces supports ne constitue une plateforme rentable ou durable pour conserver les énormes quantités de données d’archives qui subsisteront dans le cloud. Chacune d’entre elles a été créée avant que le cloud n’existe et a été conçue pour supporter des utilisations multiples.

Le projet Silica s’inscrit dans le cadre plus large du projet Optics for the Cloud, un programme de Microsoft visant à promouvoir l’adoption de technologies optiques dans le cloud. La plupart des travaux sur le projet Silica se déroulent dans le laboratoire de Microsoft Research à Cambridge, au Royaume-Uni. Ils impliquent une équipe de physiciens, d’ingénieurs électriciens et de chercheurs en optique.

Les chercheurs du projet Silica de Microsoft utilisent le verre de quartz comme support de stockage en raison de son extrême persistance. Même après l’avoir cuit, bouilli, passé au micro-ondes, démagnétisé et frotté avec de la laine d’acier, les données restaient lisibles.

L'équipe du projet Silica se concentre uniquement sur la construction d'un système de stockage pour l'archivage des données à l'échelle du cloud.

Le verre de quartz est abondant et relativement peu coûteux par rapport à d’autres supports. Il peut stocker indéfiniment de grandes quantités de données froides. Il ne nécessite pas non plus de dispositif environnemental coûteux comme un contrôle de la température et de l’humidité dans un datacenter ou une protection contre l’énergie des champs électromagnétiques. Il peut conserver des données pendant des milliers d’années sans subir de détérioration des bits, ce qui évite les cycles coûteux de réécriture des données sur des supports de stockage plus modernes.

L’équipe du projet Silica se concentre uniquement sur la construction d’un système de stockage pour l’archivage des données à l’échelle du cloud. Elle n’essaie pas de fournir de nouveaux systèmes de stockage pour les particuliers ou les PME. L’équipe se préoccupe uniquement de développer un support de stockage capable de gérer de grandes quantités de données froides rarement consultées, que ce soit tous les quelques mois ou toutes les quelques années.

Comment fonctionne le projet Silica ?

Le projet Silica s’appuie sur des travaux antérieurs réalisés par des chercheurs de l’université de Southampton. Ce sont eux qui ont, les premiers, démontré qu’il était possible de stocker des données dans de la silice fondue, une forme non cristalline de dioxyde de silicium que l’on trouve dans les cristaux de quartz, le sable et d’autres matériaux. Leur premier succès remonte à 2013, lorsqu’ils ont stocké un fichier texte de 300 Ko dans du verre de silice fondue, qu’ils avaient baptisé « cristal de mémoire 5D ».

L’équipe du projet Silica utilise des technologies similaires à celles employées par les chercheurs de l’université de Southampton. Le projet a toutefois une portée beaucoup plus large, les efforts de l’équipe se répartissant en quatre domaines de recherche distincts : le laboratoire d’écriture, le laboratoire de lecture, le laboratoire de décodage et le laboratoire de bibliothèque.

Le laboratoire d’écriture

Ce laboratoire encode les données dans les supports en verre de quartz, appelés plateaux. Pour encoder les données, l’équipe dirige un laser femtoseconde (le type de laser utilisé pour la chirurgie oculaire) vers le verre. Il grave des réseaux nanométriques appelés voxels, directement dans le verre, plutôt que sur sa surface ou sur une couche de film intégrée. Le laser émet des impulsions optiques ultracourtes qui modifient de façon permanente la structure du verre.

Un voxel peut être considéré comme un pixel 3D capable d’encoder plusieurs bits. Le laser écrit les voxels en couches 2D sur le plan XY, en focalisant le faisceau à différentes positions, afin de varier la forme des voxels. Pour créer des voxels dans différentes couches, le laser modifie la profondeur de focalisation du faisceau dans le verre. Un morceau de verre de 2 mm d’épaisseur peut supporter des centaines de couches de voxels.

Le laboratoire de lecture

Ce laboratoire récupère les données des plateaux de verre après qu’elles ont été écrites. Un plateau est lu immédiatement après l’écriture pour en vérifier l’exactitude, puis à nouveau chaque fois que les données sont nécessaires à l’avenir.

La lecture est réalisée par un processus appelé microscopie sensible à la polarisation, qui est effectué par un microscope à grande vitesse commandé par ordinateur. Le lecteur tire parti d’une caractéristique du voxel connue sous le nom de biréfringence de forme, dans laquelle le voxel présente des propriétés de réfraction différentes de celles de la silice qui l’entoure.

Lorsque la lumière polarisée interagit avec un voxel, son champ électrique se déplace d’un nanomètre. L’étendue de ce décalage est appelée retardance du voxel. L’angle de polarisation de la lumière change également. Ces deux propriétés de biréfringence – la retardance et le changement d’angle – permettent d’encoder plusieurs bits par voxel. Une fois les voxels créés, les propriétés restent stables pendant toute la durée de vie du verre.

Les données sont lues sur le verre en faisant passer une lumière régulière à travers le plateau et en mesurant les deux propriétés de biréfringence. Le microscope comprend une caméra pour capturer des images qui caractérisent les changements de polarisation. Pour lire les différentes couches du verre, l’optique se concentre à différentes profondeurs. Les images sont ensuite envoyées au décodeur pour être interprétées.

Le laboratoire de décodage

Ce laboratoire se concentre sur les technologies nécessaires pour décoder les images produites par le lecteur. Le projet Silica utilise des algorithmes d’apprentissage automatique afin d’interpréter ces images. Les algorithmes ont besoin de plusieurs images de chaque ensemble de voxels pour décoder leurs motifs.

Le projet Silica utilise également des technologies d’apprentissage profond par réseaux neuronaux pour traiter les variabilités potentielles et le bruit qui accompagnent la lecture des données. Le résultat de ces analyses est un tableau 2D de distributions de probabilités, qui sert ensuite de point de départ aux processus de correction des erreurs. Les données utilisables constituent le résultat final.

Bien que le processus de décodage soit directement lié au processus de lecture, les deux sont traités comme des opérations distinctes. Le lecteur capture physiquement les images et le décodeur interprète, dans un second temps, la complexité des voxels.

Le laboratoire de bibliothèque

Ce laboratoire concerne toutes les manipulations des plateaux de verre. Lorsqu’ils ne sont pas lus, les plateaux sont placés dans de grands panneaux de stockage qui ressemblent à des bibliothèques de bandes. Ces panneaux, comme les plateaux de verre, sont entièrement passifs. Ils ne nécessitent ni électricité, ni contrôle climatique particulier, ni protection contre les champs électromagnétiques.

Cette bibliothèque présente l’intérêt de mettre les données archivées à l’abri du trafic sur le réseau, où un ransomware pourrait chercher à les dérober.

Les plateaux ne sont pas insérés dans des cartouches spéciales ni verrouillés sur les étagères. Ils sont maintenus en place par la gravité et restent immobiles à moins d’être déplacés vers ou depuis un lecteur. Lorsque des données sont demandées, un robot spécial, dit shuttle, récupère le plateau et l’amène au lecteur. Une fois les données lues, le shuttle replace le plateau sur l’étagère. Les panneaux de stockage comprennent plusieurs lecteurs à chaque extrémité pour rationaliser ce processus.

De nombreux shuttles peuvent fonctionner simultanément sur les panneaux de stockage. Ce sont des unités autonomes fonctionnant sur batterie qui traversent les étagères sur des rails. Les shuttles peuvent également monter ou descendre d’un niveau à l’autre grâce à un processus appelé crabbing. N’importe quel shuttle peut récupérer n’importe quel plateau de n’importe quelle étagère et l’apporter à n’importe quel lecteur.

La bibliothèque est par ailleurs conçue pour empêcher qu’un plateau déjà écrit soit choisi pour stocker de nouveaux enregistrements. Et puis, à l’instar des bandes, cette bibliothèque présente l’intérêt de mettre les données archivées à l’abri du trafic sur le réseau, où un ransomware pourrait chercher à les dérober.

Quel est l’avenir du stockage sur verre ?

Les chercheurs du projet Silica ont parcouru un long chemin depuis les premiers tests sur le film Superman. Ils ont maintenant réalisé un prototype de médiathèque grandeur nature qui démontre l’efficacité des quatre laboratoires. Les chercheurs travaillent actuellement sur la prochaine étape de développement, bien qu’ils n’aient donné que peu de détails. Microsoft n’a pas indiqué quand le projet Silica débouchera sur une solution de stockage apte à entrer en production.

On ne sait pas si ce système sera installé ailleurs que dans les centres de données de Microsoft. Une question d’autant plus légitime que le projet Silica pourrait profiter à des entreprises ayant des besoins importants en matière de stockage d’archives. On ignore aussi à partir de quelle quantité d’archives le projet Silica devient véritablement rentable.

Ce qui est clair, c’est que de nouvelles plateformes de stockage audacieuses sont nécessaires pour gérer la croissance prévue des données. Le projet Silica répond en ciblant les besoins de stockage de données froides dans le cloud. Peut-être que le verre de quartz pourra un jour être utilisé à d’autres fins. Qui sait ?

Pour approfondir sur Archivage

Close