Puces IA : Microsoft Azure lance le Maia 200

Le nouvel accélérateur de Microsoft pour les services d’IA générative qu’il publie sur le cloud Azure est sur le papier plus puissant que les puces équivalentes chez AWS et GCP. Il dépasse même les performances du B200 de Nvidia en inférence.

L’hyperscaler Azure présente à son tour la nouvelle version de sa puce accélératrice pour l’IA générative, le Maia 200. Gravé avec une finesse de 3 nm dans les usines de TSMC, il embarque 216 Go de mémoire HBM3e ainsi que 272 Mo de SRAM. Destiné à exécuter les services d’inférence en ligne du cloud public de Microsoft, le Maia 200 serait, selon le fournisseur, un peu plus performant en FP8 que la septième génération de TPU, la puce accélératrice équivalente du cloud public de Google.

À nombre de tokens équivalent, c’est-à-dire à coût facturé équivalent, le Maia 200 permettrait aux IA de répondre aux prompts 30% plus rapidement que ne le faisaient les services d’Azure depuis un an. Encore faut-il que ces services d’IA aient été spécifiquement encodés pour cette puce. Pour l’heure, Microsoft évoque essentiellement GPT-5.2 d’OpenAI et le service Copilot qui accompagne sa suite Microsoft 365. Un kit SDK est accessible en version bêta pour adapter les autres LLM.

Le Maia 200 n’est de toute façon pas encore tout à fait disponible. Microsoft ne l’a déployé que dans la région US Central d’Azure. Les autres régions nord-américaines devraient suivre et les régions européennes ne seront équipées que dans un troisième temps.

Une précision sur 4 bits

Dans le détail, le Maia 200 aurait des performances de 10 pétaflops (millions de milliards d’opérations à la seconde) en précision FP4 et de 5 pétaflops en précision FP8, laquelle donne des résultats deux fois plus pertinents.

Azure vante que sa nouvelle puce serait trois fois plus rapide en FP4 que le Trainium3, la puce accélératrice qui motorise les services d’IA générative du concurrent AWS. Cette affirmation est biaisée dans le sens où le Trainium3 ne sait calculer qu’en FP8, avec une performance officiellement mesurée, elle, de 2,52 pétaflops. Charger un LLM encodé en 4 bits dans le Trainium3, ce qui peut présenter l’intérêt d’avoir deux fois plus de paramètres de connaissances en mémoire, n’empêchera pas la découverte des éléments de réponse à la vitesse des calculs en 8 bits, soit deux fois plus lentement qu’en 4 bits.

Le TPU v7 de Google n’a pas non plus de mode 4 bits. Ses performances en précision 8 bits (FP8) sont de 4,6 pétaflops. Il est en revanche notable que l’accélérateur de Google soit le seul dont les performances en précision 16 bits (BF16) sont logiques : 2,3 pétaflops, soit deux fois moins qu’en 8 bits. En inférence, plus le nombre de bits est élevé, plus les réponses seront précises, mais générées à une vitesse inversement proportionnelle. Sur le Maia 200 et le Trainium3, les performances en 16 bits sont bizarrement quatre fois moindres qu’en 8 bits : respectivement 1,27 et 671 pétaflops.

Cela signifie que, moyennant une consommation élevée de mémoire, les IA exécutées sur GCP, le cloud de Google, sont celles qui donneront les meilleurs résultats.

216 Go de HBM3e à 7 To/s

À ce stade, l’avantage le plus tangible du Maia 200 est sa mémoire embarquée. Ses 216 Go de HBM3e sont susceptibles de lire à la vitesse de 7 To/s 400 milliards de paramètres encodés en 4 bits. Les 144 Go de HBM3e du Trainium3 ne permettent a priori de lire qu’environ 120 milliards de paramètres encodés en 8 bits, qui plus est à la vitesse de 4,9 To/s. Enfin, les 192 Go de HBM3e du TPU v7 devraient permettre de lire dans les 175 milliards de paramètres encodés en 8 bits à la vitesse ici record de 7,4 To/s.

Cette vitesse en To/s correspond au transfert des données trouvées dans la mémoire vers les unités de calcul qui vont s’en servir pour générer du contenu. Les pétaflops donnent un indice sur la vitesse de la puce pour déterminer où se trouvent les informations, puis pour générer du contenu à partir d’elles.

Si le nombre de paramètres possibles dépasse ici la quantité que proposent les LLM traditionnels, c’est surtout parce que les hyperscalers chargent plusieurs LLM dans une même puce d’accélération.

Il est tentant d’étendre la comparaison au GPU Nvidia B200. En effet, si celui-ci est d’abord destiné aux tâches d’entraînement, les hyperscalers le proposent aussi pour l’inférence. Avec 192 Go de HBM3e, le B200 est capable de lire à la vitesse de 8 To/s environ 350 milliards de paramètres en 4 bits. Ses performances de traitement normal sont de 9 pétaflops en FP4 (et même 18 pétaflops en précision sparse-FP4, mais cela ne sert que lors de l’entraînement).  

Dernier détail technique : la capacité de chaque puce à lire et écrire dans la mémoire HBM d’une autre pour supporter encore plus de paramètres. Chaque Maia 200 communique avec ses congénères à la vitesse de 2,8 To/s. Un record, qui serait dû à la présence des 272 Mo de SRAM en guise de cache pour les communications entre puces. Cette vitesse tombe à 2,56 To/s sur le Trainium3, à 1,2 To/s sur le TPU v7 et à 1,8 To/s sur le B200.

Azure n’indique pas plus que ses concurrents hyperscalers combien de puces accélératrices peuvent ainsi communiquer directement entre elles. Des observateurs parlent de 16 puces, soit quatre serveurs de quatre puces accélératrices chacun. Chez Nvidia, le réseau NVLink permet de mettre 72 GPU en réseau.

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)