Un mauvais dimensionnement du réseau fait vaciller Azure en Europe

Microsoft a confirmé dans un billet de blog qu’un mauvais dimensionnement du réseau d’Azure a provoqué l’interruption de service de la plate-forme de cloud du groupe, le 26 juillet dernier.

Microsoft a confirmé dans un billet de blog qu’un mauvais dimensionnement du réseau d’Azure a provoqué l’interruption de service de la plate-forme de cloud du groupe, le 26 juillet dernier. Ce jour-là, les utilisateurs de la zone Europe de l’ouest - et uniquement - d’Azure ont été privés de leurs services cloud pendant 2 heures et 24 minutes. Jusqu’à lors peu de détails avaient été livrés pour expliquer la panne. Mike Neil, le patron des activités Windows Azure, explique donc que l’origine de cette panne réside dans un problème d’ajustement des équipements réseau sur une augmentation de la capacité de la plate-forme, induite par un surplus de la demande de la région Europe de l’ouest.

«A cause d’une augmentation rapide de l’utilisation du cluster, le seuil [«une valve de sécurité», qui fixe une limite du nombre de connexions afin d’éviter les dysfonctionnements du réseau en cascade, NDLR] a été atteint, provoquant un nombre non négligeable de messages en matière d’administration du réseau. Cette gestion accrue du trafic a, en retour, déclenché des bugs dans certains équipements du cluster, plafonnant l’utilisation CPU à 100% et affectant le trafic données», écrit Mike Neil, affirmant que la panne a été résolue en modifiant le seuil des limites de connexions. Microsoft confirme également avoir corrigé les bugs identifiés lors de l’incident.

Pour approfondir sur Administration et supervision du Cloud

Close