AWS : une panne majeure de S3 bouleverse le Web

Un dysfonctionnement du service de stockage d’AWS (S3) a fortement perturbé le Cloud de l’Américain et avec nombre de ses clients présent dans une des régions les plus peuplées du service. Une panne majeure rarement rencontrée par AWS.

Hier, AWS a souffert de sa première interruption de services majeure depuis plus d’un an. Et cela n’aurait pas pu être pire au regard de la criticité de S3,  de son niveau d’utilisation dans le monde et de la zone géographique frappée par ce dysfonctionnement.

Les premiers dysfonctionnements de S3 sont apparus dans la région US East-1 aux alentours de 12.30 ET.  Le service a véritablement peiné pendant 4 heures avant un retour à la normal. Le problème : S3 est un service incontournable à l’ensemble des autres services Cloud de la marque – qui s’y adossent pour leur fonctionnement – et cette région est l’un des carrefours principaux en matière de données clients.

A 13.49, heure locale, AWS affirmait : « Nous avons rétabli toutes les opérations en ajoutant de nouveaux objets dans S3.  Cette opération était la dernière qui affichait encore un niveau élevé d’erreur. Le service Amazon S3 fonctionne désormais normalement. »

« La zone East-1 n’est pas la bonne zone pour une panne car c’est vraiment une région très exploitée », soutient Jason Read, fondateur de CloudHarmony, une société qui « écoute » les temps de réponses des plateformes Cloud – une société détenue par Gartner.

La récupération, le listing et la suppression d’objets Amazon S3 étaient redevenus possibles à 14.12 heure locale, mais AWS n’avait toujours pas retrouvé l’ensemble de ses services pour l’ajout d’objets S3 à la publication de cet article.

Cette région est en effet la première région AWS ouverte, et donc la plus ancienne. On suppose qu’il s’agit d’une des régions les plus importantes en termes d’usage. Au regard du nombre d’entreprises Web impactés ce mardi, cette panne massive montre également le degré de pénétration d’AWS.

Pendant les 2 heures qui ont suivi la découverte de la panne, AWS a confirmé avoir identifié la source du problème – mais sans la publier. La panne empêchait par exemple la résolution de requêtes sur certains services de bases de données et a provoqué des troubles de fonctionnement d’Amazon Simple Email Service.

Mais il est important de noter qu’aucune perte de données n’a été à ce jour rapportée, malgré l’ampleur de la panne tant sur les grandes que sur les petites entreprises, explique en substance Dave Barlotti, analyste principal chez Forrester Research. Selon lui, ce dysfonctionnement s’est surtout traduit par un fort ralentissement des services.

Les premières plaintes des utilisateurs se sont naturellement propagées sur les réseaux sociaux, avant même qu’une notification de la panne ait été publiée sur le site Web d’Amazon, qui est d’ailleurs resté indisponible quelque temps. Le tableau de bord AWS qui monitore les services Cloud du groupe, était certes accessible, mais les statuts affichés ne rapportaient pas la panne – probablement parce que les indicateurs graphiques de ce tableau de bord dépendent aussi de S3 et de la région affectée. Une bannière a été placée en haut de la page et le tableau de bord est resté partiellement inopérant deux heures après le début de la panne.

Panne totale ou sérieux dysfonctionnement ?

Toutefois, les observateurs ne s’accordent pas encore sur le niveau de la panne. CloudHarmony, qui mesure les services AWS de plusieurs façons, explique ne pas être parvenu à accéder aux services et évoque un vraie panne totale. Une affirmation que Dava Barlotti ne soutient pas. « De mon point de vue, une panne correspond à : je ne peux plus accéder aux services, ils sont inopérants totalement. Mais ce n’est pas le cas. Cela était extrêmement lent  et seulement certains utilisateurs n’ont pas eu accès aux services. Certains ont été plus affectés que d’autres. »

Dysfonctionnement ou panne ? Il s’agit certes de sémantique mais, pour les utilisateurs, cela est clé en matière de SLA et, surtout, pour les crédits alloués par AWS lorsque les temps de réponses promis ne sont pas assurés.

La dernière panne d’AWS a été notée en août 2015, panne qui a duré 25 minutes selon CloudHarmony. Depuis, aucune autre panne aussi longue de S3 n’avait été enregistrée, affirme encore Jason Read. Mais au final, si les utilisateurs ont stocké leurs données dans plusieurs zones, l’impact de cette panne est réduit – à moins que des services annexes soient alors hébergés dans cette région et n’aient pas été répliqués, volontairement, conclut-il enfin.

Pour approfondir sur Stockage en Cloud

Close