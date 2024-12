Les responsables de bases de données auront beaucoup, beaucoup moins de scripts à écrire. Il existe désormais une troisième option de « formatage » d’un bucket S3 dans le service de stockage objet éponyme d’AWS : S3 Tables.

En substance, il s’agit de pouvoir stocker sur S3 des fichiers au format Apache Iceberg – qui correspondent à l’extraction au format texte compressé du contenu d’une base de données SQL – et de pouvoir continuer à accéder à ce contenu à l’aide de requêtes SQL. Comme s’il s’agit d’un service de stockage en mode bloc hors de prix. Alors qu’en réalité S3 est un stockage en mode objet, peu cher et cantonné aux archives.

Les deux autres formatages d’un bucket S3 sont le mode normal, où les données sont répliquées sur deux autres sites, et le mode Directories, moins cher, où elles ne le sont pas.

Lire et écrire les archives comme si elles étaient des bases SQL

« L’usage est celui d’une base de données dont on n’a plus besoin en production, mais que l’on doit tout de même conserver sous la main. Parce que, régulièrement, tous les mois, tous les trimestres, tous les ans, on a besoin de mettre à jour ces données dans le cadre d’un rapport d’activité », contextualise Sébastien Stormacq, porte-parole technique d’AWS pour les solutions développeur, lors de l’événement AWS re:Invent 2024 qui se tient cette semaine à Las Vegas et qui a été le théâtre de plusieurs annonces concernant S3.

« La bonne pratique est de sortir ces données de la base SQL où leur coût de stockage est trop élevé. On peut les extraire dans un fichier au format Open source Iceberg, qui reste interrogeable par des requêtes SQL. Et, à partir du moment où il s’agit d’un fichier, il devient possible de le stocker sur une bucket S3 [équivalent d’un volume de fichiers dans la nomenclature du stockage objet, NDR] qui, lui, coûte très peu cher », poursuit l’interlocuteur du MagIT.

« Tout cela existait déjà. Le bucket S3 rempli de fichiers au format Iceberg est ce que l’on appelle un Datalake. Si une application dispose d’un pilote Iceberg, elle peut sans problème consulter les contenus de ces fichiers avec des requêtes SQL – notre service de base de données Aurora, mais également notre service d’analytique QuickSight, par exemple, savent le faire directement. Pour les applications tierces, nous avons un service Data Glue qui présente le fichier Iceberg stocké en S3 comme une table SQL enregistrée sous forme de colonnes de données. Le problème est de modifier ces contenus. »

« Sur un stockage en mode bloc, il est simple de remplacer un bloc de données par un autre, mis à jour. Mais en S3, on ne remplace pas jamais les données. Le système les efface du fichier et ajoute à celui-ci les données mises à jour. Rapidement, on se retrouve avec des fichiers Iceberg qui sont remplis de trous et d’ajouts. Comme les ajouts ne sont pas compressés, cela finit par occuper beaucoup de place et par coûter de nouveau cher en stockage. »

« Pour parer à cela, l’administrateur des données doit créer des scripts qui sortent les fichiers de S3, qui les recompressent proprement, qui effacent l’ancienne version d’un fichier et qui stockent sur S3 sa nouvelle version. C’est très compliqué. Le formatage S3 Tables évite toute cette usine à gaz. Il s’occupe tout seul de recréer un fichier compacté à chaque modification par requête SQL », dit enfin Sébastien Stormacq.