OVHcloud : ces soldats du numérique mobilisés au front de la crise

La France confinée compte sur eux pour maintenir coûte que coûte les services numériques en activité. Pour y parvenir, ils doivent fabriquer des serveurs en usine, les installer et réparer les pannes.

C’est une catastrophe. Lundi 30 mars, 17h00. Alors que la France est confinée et qu’une majorité de salariés utilisent les services en ligne, pour télétravailler ou pour tuer le temps durant le chômage partiel qui leur est imposé, à Roubaix, chez l’un des plus importants hébergeurs de ces services, la mémoire de la carte électronique gra1-24b-n56 du commutateur « top-of-the-rack » numéro RBX-D1-A75 disjoncte.

Un défaut de fabrication. La panne n’aurait dû survenir que des années après la mise en service de l’appareil, très certainement après qu’il soit retiré de la production. Mais en ces temps de crise sanitaire, ladite carte a vieilli prématurément. Elle subit depuis déjà 15 jours les assauts de tous les Français qui ne communiquent plus que par le cloud, à défaut de pouvoir emprunter les réseaux de leurs entreprises.

Le commutateur s’emballe dans une spirale de signaux morbides qui corrompent tour à tour toutes les communications qu’il gère avec l’extérieur du bâtiment. À 17h01, le datacenter amiral d’OVHcloud à Roubaix n’assure plus que la moitié de son trafic. Des administrations, des banques, des industriels, des services scolaires et une kyrielle de sociétés privées, dont un tiers du CAC40, ne peuvent plus communiquer avec leurs usagers, leurs salariés, leurs partenaires.

Les minutes qui suivent sont interminables. Dans sa perdition, l’équipement numéro RBX-D1-A75 n’a en effet déclenché aucune alarme, car il n’a pas considéré que la destruction systématique des communications par un composant mémoire défectueux relevait d’une panne logicielle – un autre défaut de fabrication.

Petit à petit, des utilisateurs commencent à manifester sur les réseaux sociaux leur étonnement d’être déconnectés. Autant sur le qui-vive que d’habitude, les administrateurs système d’OVHcloud repèrent ces messages. Leurs consoles de surveillance n’affichent pourtant aucune anomalie. On sonde.

Et on identifie le coupable. À 17h39, l’un des techniciens sur site est prévenu. Il s’élance dans les allées interminables du centre et arrache les câbles du routeur numéro RBX-D1-A75, ce qui provoque le basculement automatique des connexions sur le second routeur « top-of-the-rack », celui qui assure déjà le transport de l’autre moitié du trafic. À 17h40, l’ensemble des utilisateurs confinés retrouvent leurs services en ligne, quoiqu’au ralenti.

Il faudra encore l’acharnement des équipes d’astreinte à rebrancher tous les câbles réseau sur des équipements de secours, jusqu’à 22h56, pour que le trafic retrouve sa vitesse initiale. « Rien de tout cela n’aurait été possible si nos personnels n’étaient restés mobilisés », lance, avec fierté, Marie Vaillaud, porte-parole d’OVHcloud.

Derrière la résolution de cet incident, surtout, il y a une organisation de crise digne d’une campagne militaire et, OVHcloud s’en targue, pleine de précautions à l’égard des ressources humaines.

Un plan d’action international dès les premiers signes de la contagion

Désormais classé Opérateur d’Importance Vitale (OIV), l’hébergeur OVHcloud gère 16 datacenters en France et 30 dans le monde. À date, sa flotte globale représente 400 000 serveurs physiques – 300 000 pour héberger les services en ligne du cloud public et 100 000 dédiés à l’exécution des systèmes d’information privés des entreprises.

« Nous sommes présents à Singapour. Donc, nous avons été sensibilisés à la contagion du Covid-19 dès les premières manifestations du virus en Asie. Dans les jours qui ont suivi, nous avons mené tous les matins des réunions de crise avec nos équipes sur place, le comité de direction du groupe, des experts, les représentants du personnel et nos services de communication interne, afin de déterminer un plan d’action. Nous nous doutions qu’il s’appliquerait à terme à l’échelle internationale », raconte au MagIT Line Cadel, la directrice des ressources humaines d’OVHcloud.

« En trois jours, nous avons été capables de passer 2 000 salariés en télétravail. »
Line CadelDRH, OVHcloud

« Nous avons pris des mesures générales et des mesures particulières », poursuit-elle. « Les mesures générales concernent tous nos bureaux dans le monde : nous les avons fermés. En trois jours, nous avons été capables de passer 2 000 salariés en télétravail. »

Le plus gros défi aura été de réussir à équiper dans ce laps de temps les 350 collaborateurs des centres de support, en France et en Tunisie, du bon ordinateur portable, de la bonne connexion Internet, du bon écran, du bon casque, mais aussi de la bonne chaise, pour qu’ils puissent continuer à répondre aux appels depuis chez eux. « Nos équipes techniques se sont par ailleurs occupées de redéployer tous les flux téléphoniques. »

Fabriquer 1 000 serveurs par jour pour muscler les services qui flanchent

« Les mesures particulières, quant à elles, consistaient à maintenir l’activité dans nos datacenters et nos deux usines de production ».

Car voilà le nerf de la guerre que le public ignore généralement : OVHcloud fabrique lui-même les serveurs qui équipent ses datacenters. « D’ordinaire, nos deux usines fabriquent ou recyclent entre 700 et 800 serveurs par jour. Depuis le confinement, le rythme est passé à 1 000 serveurs par jour. Parce qu’il y a eu une explosion des activités numériques : des écoles, des éditeurs d’applications SaaS, des fournisseurs d’outils pour la santé à distance nous ont priés de démultiplier en urgence des ressources nouvelles, pour répondre à des demandes inédites », explique Marie Vaillaud.
On apprendra qu’OVHcloud, anticipant dès la fin 2019 les festivités du Nouvel An chinois, a pour l’heure le stock de composants nécessaire à la fabrication de ces serveurs.

Parmi ses clients, un service éducatif, habituellement utilisé par quelques milliers d’élèves, a vu sa fréquentation grimper à 1,4 million d’utilisateurs dès le premier jour de la fermeture des établissements scolaires. « Leur site s’est crashé très rapidement. Mais grâce à notre réactivité, nous avons pu en une poignée d’heures à peine multiplier par cinq leur nombre de serveurs web et de proxys et, dès le premier après-midi, le service était de nouveau disponible », raconte-t-elle.

« La démultiplication des trafics utiles aux personnes confinées ou encore en activité est bien plus importante [que 10 %]. Mais cette croissance est pondérée par la mise à l’arrêt d’une multitude d’autres services. »
Marie VaillaudPorte-parole OVHcloud

Selon Marie Vaillaud, le trafic sur le réseau d’OVHcloud a augmenté de 10 % depuis le début du confinement. Seulement ? « En réalité, la démultiplication des trafics utiles aux personnes confinées ou encore en activité est bien plus importante. Mais cette croissance est pondérée par la mise à l’arrêt d’une multitude d’autres services – CRM, comptabilité, applications métiers, etc. – que toutes les entreprises en fermeture temporaire ont subitement cessé d’utiliser. »

Des équipes qui se relaient sans se toucher, des robots qui transportent les serveurs

Dans les usines, donc, les ateliers de production ont été réaménagés pour respecter de nouvelles distances réglementaires entre chaque personne. Line Cadel évoque une véritable chorégraphie : les postes, montés sur roulettes, ont été écartés en quelques minutes à peine jusqu’aux espaces occupés d’habitude par les designers, désormais en télétravail.

Les 60 opérateurs encore sur site ne se passent plus les éléments de la main à la main : un chariot, monté sur un petit train électrique, achemine les serveurs jusqu’à l’atelier suivant, puis jusqu’au transporteur qui livrera les machines aux datacenters. À la cantine, plus question de stagner au bar à salades : des personnels gantés distribuent des assiettes préremplies. Toutes les zones de passage sont désinfectées trois fois par jour.

L’organisation est similaire du côté des datacenters, c'est un engin qui achemine tout seul les serveurs jusque dans leurs emplacements en rack compris. Sans lui, il faudrait deux personnes à moins d’un mètre de distance pour glisser les machines dans les orifices encore libres des rangées d’étagères informatiques.

« Différents métiers entrent en jeu dans le datacenter : les techniciens qui réceptionnent les serveurs et les connectent, ceux qui s’occupent des mises à jour physique (ajouts de disques, de modules, etc.), les ingénieurs réseau, les ingénieurs infrastructure, qui font de la maintenance préventive, ou curative, les administrateurs système… Nos personnels étant formés sur cinq typologies de compétences, nous avons décidé de réduire les effectifs sur site pour éviter que les gens ne se croisent. Ils viennent donc à tour de rôle une semaine sur deux ou une semaine sur trois », décrit Line Cadel.

Elle précise qu’OVHcloud a mis en place dès le début du confinement une prime de continuité d’activité. Elle sera versée tant que la crise durera.

Personne n’est en chômage partiel : les techniciens « en réserve » chez eux surveillent et administrent à distance les systèmes. OVHcloud reconnaît néanmoins que ce dispositif est perfectible : l’analyse post-mortem de l’incident du 30 mars indique que les administrateurs auraient dû être en mesure de rediriger eux-mêmes le trafic vers des routeurs opérationnels.

« Nous sommes présents uniquement pour être réactifs vis-à-vis des demandes de nos clients. Tous nos projets technologiques ont été reportés à une date ultérieure. »
Line CadelOVHcloud

« Évidemment, réduire le personnel sur site a un impact sur notre organisation. Nous avons tranché : nous sommes présents uniquement pour être réactifs vis-à-vis des demandes de nos clients. Tous nos projets technologiques ont été reportés à une date ultérieure », précise la DRH. Parmi ces projets, la mise en place d’une meilleure gestion des incidents réseau doit désormais avoir lieu vers le début de l’été.

Aller jusqu’à salarier un médecin, une infirmière, un psychologue

Mais le plus gros effort d’organisation chez OVHcloud, pour que les troupes tiennent bon au front de la pandémie, n’est ni dans les robots électriques ni dans les modifications du calendrier. « Le principal enjeu de la crise est de pouvoir assurer une continuité de service en ne faisant aucune concession sur la santé et la sécurité des collaborateurs », lance Line Cadel.

« Nos salariés ont une moyenne d’âge de 34 ans. Ce sont des gens passionnés, surengagés. Nous savons que nous leur demandons beaucoup. Alors, nous avons parmi nos équipes, un médecin, un psychologue, une infirmière. Et nous venons de souscrire à un service de téléconsultation pour la prévention des risques psychosociaux. Tous sont disponibles pour nos collaborateurs. Nous voulons qu’ils sentent que leur santé est en sécurité. »

Historiquement, le médecin était celui de la crèche qu’OVHcloud a très tôt mis en place pour ses salariés jeunes parents. Comme celui-ci était très proche des collaborateurs, l’hébergeur a décidé de financer pour l’ensemble de ses personnels des consultations médicales gratuites : soit sur l’un des sites d’OVHcloud que ce médecin visite durant les heures de bureau, soit au cabinet qu’il tient par ailleurs en ville, à Roubaix. Il en va de même pour l’infirmière, qui reçoit sur rendez-vous, et pour le psychologue, qui peut dispenser des bonnes pratiques à tout moment, par visioconférence.

« En cette période de crise, cette organisation au service des ressources humaines est un vrai succès. Nous avons enregistré 300 inscriptions en une semaine sur le service de téléconsultation. Nous nous félicitons de constater que les discussions que nous avons aujourd’hui avec nos collaborateurs ne concernent plus la santé, mais des questions opérationnelles » conclut-elle.