Panne Amazon : une mauvaise opération de mise à jour à l’origine du trouble

Amazon décrypte pas à pas dans un long document les origines de la panne de son infrastructure de Cloud Computing, intervenue il y a deux semaines. Une procédure de mise à jour mal effectuée, qui reflète non seulement une erreur humaine mais, plus encore, la fébrilité des fournisseurs qui ajustent leurs offres au coup par coup.

Presque deux semaines la dramatique panne intervenue sur son infrastructure de Cloud Computing, qui a laissé de nombreuses entreprises sur le carreau dans la partie Est des Etats-Unis - avec, pour certaines, des pertes de données -, Amazon se décide à faire la lumière sur les raisons de cette interruption de ses services.

Dans un long document de synthèse, Amazon explique ainsi que la raison première de l’interruption est due à un changement de configuration intervenu sur les systèmes de sauvegarde et de stockage liés au service EBS (Elastic Block Stores), qui permet notamment la redondance. “Chaque volume de stockage est automatiquement répliqué au sein de la même zone de disponibilité. Ceci empêche la perte de données due à une défaillance d’un seul composant de matériel”, souligne Amazon sur son site Internet, expliquant l'une des utilités du service.

La routage de trafic [qui constitue une procédure standard dans le cadre d'une mise à jour, NDLR, ] a été effectué de manière incorrecte et, au lieu de router le trafic vers l’autre routeur du réseau primaire [EBS], le trafic a été dirigé vers un réseau EBS de capacité moindre”, explique le groupe.

Il s’agirait donc d’une erreur humaine, souligne alors Johannes Ullrich de la société SANS Internet Storm Center, spécialisée dans la sécurité informatique, interrogé par l’AFP, pour qui cette panne donne surtout un coup de projecteur sur les risques liés au Cloud Computing. Des risques selon lui étroitement liés à l’immaturité du marché et des fournisseurs qui fonctionnent au coup par coup. "Ce que cela montre, ce sont les limites de l'expérience opérationnelle d'Amazon ou d'autres pour faire fonctionner ces systèmes de cloud", explique-t-il à nos confrères.

Et, en effet, suite à cette épisode fâcheux qui a tout de même laissé balbutiants des sites comme Quora, Reddit, ou le très tendance Foursquare, Amazon promet d’auditer désormais ses procédures de mises à jour et de miser un peu plus sur leur automatisation. Une optimisation des services, en somme.

Au final, le groupe promet de dédommager ses clients, localisés dans la zone frappée par le panne et de leur accorder 10 jours de crédit.

Egalement sur LeMagIT :

Cloud Computing : le SLA sacrifié sur l'autel de la flexibilité

Cloud : Google renforce les garanties de service de ses Apps

Pour approfondir sur Administration et supervision du Cloud

Close