Le Machine Learning, moteur de l’efficacité énergétique des datacenters de Google

Lors de la conférence Datacentres Europe 2014, Google a dévoilé comment le machine learning et l’intelligence artificielle lui permettent d'optimiser la consommation énergétique de ses datacenters.

A l’occasion de la conférence Datacentres Europe 2014 qui s’est tenue la semaine dernière, Google a dévoilé l’un de ses secrets pour optimiser la consommation énergétique dans ses très puissants datacenters : le machine learning et l’intelligence artificielle.

Joe Kava, le patron des datacenters chez Google, a notamment levé le voile lors de cet événement sur certaines de ses astuces pour maximiser le PUE (Power Usage Efficiency) de ses centres. « Ces 8 dernières années, l’industrie du datacenter a beaucoup travaillé à utiliser le PUE comme indicateur d’optimisation de l’efficacité énergétique des datacenters, explique-t-il.  Mais le PUE dans sa forme actuelle reste assez limité. C’est dû au fait que le datacenter moderne est le produit d'interactions complexes entre plusieurs systèmes mécaniques, électriques et de surveillance. Dans notre quête d’efficacité extrême, nous avons trouvé un nouvel allié : le machine learning.

Mais avant de s’attarder sur la façon dont Google exploite cette branche de l’intelligence artificielle - ses résultats se trouvent dans un livre blanc-, Kava a donné quelques conseils aux opérateurs de datacenters :

  • Mettez au défi  vos propres hypothèses

Les gestionnaires ainsi que les opérateurs de datacenters ne doivent pas seulement adopter les métriques et les outils qui s’offrent à eux, mais doivent également s’interroger sur leur qualité et sur le fait que ces outils ont vraiment la capacité à réduire la consommation énergétique de leurs équipements.

  • Repoussez les limites des paramètres d’exploitation mais faites le intelligemment

« Repousser les limites mais de façon éclairée en testant vos nouvelles idées sur une machine virtuelle dans un environnement avant de le placer en production. »

  • Utilisez toutes les données que vous pouvez

« Les données sont importantes si vous souhaitez optimiser encore plus votre efficacité. Chaque donnée raconte une histoire, mais il se peut que toutes les données ne soient pas facilement disponibles. Ayez donc recours à certains outils et agrégez toutes les données pour identifier les trésors qui s’y cachent. »

  • Soyez obsédés par l’efficacité énergétique

C’est le seul moyen pour bâtir un centre durable, soutient Joe Kava et les réductions énergétiques riment avec des réductions de coûts. « Nous sommes obsédés par les économies d’énergie et nous sommes en permanence à la recherche de moyens pour réduire encore plus notre consommation énergétique », poursuit-il.

  • Toujours vous demander ce que pourrait être votre PUE

« A moins d’avoir dans le viseur un indicateur cible, vous ne pouvez pas savoir si oui ou non, votre PUE est bon. »

  • Considérez les alternatives

Le Machine Learning n’est qu’un unique levier identifié par Google pour réduire sa consommation énergétique. « Mais on ne peut pas écarter le fait qu’il puisse y avoir d’autres moyens pour rendre les datacenters plus efficaces. Continuez d’explorer d’autres possibilités », indique Kava.

Comment Google utilise l’Intelligence artificielle pour améliorer son PUE

« Jim Gao, un ingénieur de notre équipe Datacenter, est obsédé par le machine learning », ajoute-t-il. « Réalisant qu’il existait un gros potientiel dans les données extraites de nos datacenters, Jim a étudié le machine learning et a commencé à développer des modèles pour prédire – et ainsi améliorer – les performances de nos centres. »

Le modèle ainsi créé se comporte comme d’autres modèles de machine learning (comme la reconnaissance vocale) – un ordinateur analyse une  grande quantité de données pour identifier des patterns et « apprendre ». « Il est préférable de laisser les machines parcourir ces données car elles ne se lassent pas de croiser tous ces nombres - comme pourraient le faire les humains. De plus, elles sont également plus précises et exactes », explique-t-il.  Il est également difficile pour les humains de prendre en compte l’ensemble des variables – comme la charge des serveurs, le nombre de refroidisseurs en action, la température extérieure, le taux d’humidité – et comment ils interagissent.

L’équipe Datacenter rassemble les données collectées lors des opérations au quotidien et les passe à travers le modèle pour interpréter les interactions complexes. Les modèles passent au crible 19 variables pour réaliser leur analyse.

Les résultats générés identifient alors les zones où des économies peuvent être réalisées et même le bon moment pour réaliser des opérations de maintenance ou une mise à jour technologique. « Les modèles de Jim sont désormais fiables à 99,6% dans ses prédictions du PUE. Nous pouvons mettre en place de nouvelles méthodes pour optimiser l’efficacité de nos opérations », affirme Kava.

Il y a quelques mois, Google a dû déconnecter certains serveurs d’un de ses datacenters pendant quelques jours. « Habituellement, cela aurait dû avoir un impact sur son efficacité énergétique. Mais nous avons pu utiliser les modèles de Jim pour ajuster temporairement notre configuration en terme de refroidissement, réduisant ainsi les effets de ces changements sur notre PUE pendant la période. Ces petites modifications, lorsqu'elles sont réalisées régulièrement, contribuent à réaliser des économies à  la fois d’énergie et de coûts. »

Joe Kava a détaillé le modèle de machine learning de Gao dans un livre blanc et a invité les opérateurs de datacenters, les ingénieurs ainsi que les dirigeants à considérer le système. « Inutile d’avoir un super-cluster ou un super-calculateur pour cela.  Notre modèle pour le PUE fonctionne sur un unique serveur. Selon la taille de votre entreprise, vous pouvez également le faire fonctionner sur un poste de travail », soutient-il.

Mais, attention, « les modèles ne sont véritablement efficaces qu’en fonction des données que l’on y injecte. Si les données sont mauvaises en entrée, elles seront mauvaises en sortie – Garbage In, Garbage out.

« Nous avons dû nettoyer un peu les données. Si vous devez également le faire, je recommande à vos ingénieurs d’étudier quelque peu le machine learning. Dans le cas contraire, l’exactitude des informations risque de ne pas être à la hauteur – vous devez également bien faire  vos devoirs.

Traduit et adapté par la rédaction

Pour approfondir sur Gestion et administration du Datacenter

Close