Un accès WAN, un nouveau TPU et de l’IA sur site chez GCP

Les offres d’infrastructure du cloud de Google s’enrichissent d’une appliance hyperconvergée équipée des derniers GPU de Nvidia, pour exécuter localement l’IA Gemini, des puces accélératrices Ironwood et de fibres dédiées.

par

Yann Serra, LeMagIT

Publié le: 15 avr. 2025

La conférence Google Cloud Next 2025 de l’hyperscaler GCP, qui vient de se tenir à Las Vegas, a fait la part belle aux évolutions des offres d’infrastructures. En vedette, les puces accélératrices TPU – qui signifient ici Tensor Processing Unit – arrivent bientôt dans une nouvelle génération pour des calculs en ligne plus rapides. L’infrastructure hyperconvergée Google Distributed Cloud (GDC), qui déporte les services de GCP sur site, va quant à elle bientôt accueillir des configurations dotées de GPU Blackwell de Nvidia.

Enfin, une nouvelle offre de connectivité baptisée Cloud WAN doit permettre aux entreprises de se connecter au cloud – et pas seulement celui de Google – via les fibres de l’hyperscaler plutôt que par celles de l’Internet public. Porté par 202 points de présence dans le monde et 33 câbles sous-marins, ce réseau serait en moyenne 40 % moins cher qu’un WAN classique et aussi 40 % plus performant que des fibres publiques.

Pour être plus précis, la communication sur des fibres appartenant à Google commencera dès le premier point de présence de l’hyperscaler. Mais celui-ci s’engage à financer le coût de la fibre privée qui relie le site d’une entreprise à ce point de présence. L’opérateur de cette fibre privée doit toutefois faire partie du programme Verified Peering Provider. Le cas échéant, GCP pourra demander à son partenaire Lumen Technologies de venir en installer une.

Une IA commerciale sur site

Rappelons que GDC est conçu pour fournir l’ensemble des services d’infrastructure de GCP en fonctionnement étanche, ce qui est censé répondre aux exigences réglementaires de différents cas d’usage. La nouvelle version aura l’intérêt d’exécuter sur site, en vase clos, les modèles d’IA Gemini de Google. Il ne sera donc plus nécessaire d’envoyer en ligne les données internes d’une entreprise pour qu’elles soient analysées par une IA.

Cette nouvelle version exécutera d’ailleurs aussi sur site Google Agentspace, un service d’agent d’IA multimodal qui fonctionne comme un chatbot de recherche pour les données d’entreprise.

Alors que les modèles installables sur site sont d’ordinaire exclusivement ceux téléchargeables gratuitement depuis Hugging Face, dont Gemma de Google, GCP se plaît à dire qu’il est le premier à offrir la possibilité d’exécuter un LLM commercial ailleurs que dans le cloud. OpenAI, qui fonctionne sur Azure, et Anthropic, qui s’exécute depuis AWS, ne sont pas encore disponibles sur les infrastructures hyperconvergées proposées par leurs hyperscalers respectifs. Notamment parce que celles-ci ne sont pas encore équipées des derniers GPU de Nvidia.

Il faudra toutefois attendre cet été pour voir arriver Gemini et Agentspace sur des appliances GDC, le temps que des partenaires constructeurs de serveurs aient des machines équipées de GPU Blackwell à leur catalogue.

Ironwood, le nouveau TPU avec 192 Go de HBM

À terme, GCP prévoit de proposer des appliances GDC équipées de ses propres puces accélératrices IronWood, soit le nom de code de la nouvelle génération de ses TPU.

L’hyperscaler n’a pas beaucoup partagé de détails sur ces nouvelles puces, si ce n’est qu’elles sont toujours plutôt conçues pour l’inférence que pour l’entraînement. Leur puissance de calcul individuelle est estimée à 4 614 Téraflops en FP8. Elles seront équipées de 192 Go de mémoire HBM, offrant une bande passante de 7,4 To/s. La version précédente, la v5p « Trillum », intégrait 95 Go de mémoire HBM, pour une bande passante de 2,8 To/s et une performance par puce de 459 Téraflops.

192 Go est aussi la capacité de la mémoire HBM intégrée dans les nouvelles puces Blackwell B200 de Nvidia.

En cloud, GCP proposera à ses clients de louer des clusters de calcul entiers, dits pods, dotés soit de 256 TPU IronWood, soit de 9 216. Cette dernière version doit offrir une puissance de 42,5 Exaflops, soit 24 fois la puissance de calcul du supercalculateur El Capitan. Sur scène, le PDG de GCP, Thomas Kurian (en photo en haut de cet article), a évoqué un « Hypercalculateur d’IA ». Ces pods bénéficieront par ailleurs d’une bande passante bidirectionnelle de 1,2 To/s entre deux puces, du fait de la présence d’un nouveau contrôleur réseau ICI (Inter-Chip Interconnect) dans les IronWood..

Un accès WAN, un nouveau TPU et de l’IA sur site chez GCP

Les offres d’infrastructure du cloud de Google s’enrichissent d’une appliance hyperconvergée équipée des derniers GPU de Nvidia, pour exécuter localement l’IA Gemini, des puces accélératrices Ironwood et de fibres dédiées.

Une IA commerciale sur site

Ironwood, le nouveau TPU avec 192 Go de HBM

Pour approfondir sur IaaS

Groq déploie son cloud et ses serveurs d’inférence IA en Europe

Nvidia interconnecte les GPU des hyperscalers avec DGX Cloud Lepton

Cloud : S3NS arrivera en fin d’année

Stockage : Panzura rend son stockage intersites plus réactif

Une IA commerciale sur site

Ironwood, le nouveau TPU avec 192 Go de HBM

Sur le même sujet

Pour approfondir sur IaaS

Groq déploie son cloud et ses serveurs d’inférence IA en Europe

Nvidia interconnecte les GPU des hyperscalers avec DGX Cloud Lepton

Cloud : S3NS arrivera en fin d’année

Stockage : Panzura rend son stockage intersites plus réactif