L’hyperscaler Azure présente à son tour la nouvelle version de sa puce accélératrice pour l’IA générative, le Maia 200. Gravé avec une finesse de 3 nm dans les usines de TSMC, il embarque 216 Go de mémoire HBM3e ainsi que 272 Mo de SRAM. Destiné à exécuter les services d’inférence en ligne du cloud public de Microsoft, le Maia 200 serait, selon le fournisseur, un peu plus performant en FP8 que la septième génération de TPU, la puce accélératrice équivalente du cloud public de Google.

À nombre de tokens équivalent (c’est-à-dire à coût facturé équivalent), le Maia 200 permettrait aux IA de répondre aux prompts 30 % plus rapidement que ne le faisaient les services d’Azure depuis un an. Encore faut-il que ces services d’IA aient été spécifiquement encodés pour cette puce. Pour l’heure, Microsoft évoque essentiellement GPT-5.2 d’OpenAI et le service Copilot qui accompagne sa suite Microsoft 365. Un kit SDK est accessible en version bêta pour adapter les autres LLM.

Le Maia 200 n’est de toute façon pas encore tout à fait disponible. Microsoft ne l’a déployé que dans la région US Central d’Azure. Les autres régions nord-américaines devraient suivre et les régions européennes ne seront équipées que dans un troisième temps.

Une précision sur 4 bits Dans le détail, le Maia 200 aurait des performances de 10 pétaflops (millions de milliards d’opérations à la seconde) en précision FP4 et de 5 pétaflops en précision FP8, laquelle donne des résultats deux fois plus pertinents. Azure vante que sa nouvelle puce serait trois fois plus rapide en FP4 que le Trainium3, la puce accélératrice qui motorise les services d’IA générative du concurrent AWS. Cette affirmation est biaisée dans le sens où le Trainium3 ne sait calculer qu’en FP8, avec une performance officiellement mesurée, elle, de 2,52 pétaflops. Charger un LLM encodé en 4 bits dans le Trainium3 – ce qui peut présenter l’intérêt d’avoir deux fois plus de paramètres de connaissances en mémoire – n’empêchera pas la découverte des éléments de réponse à la vitesse des calculs en 8 bits, soit deux fois plus lentement qu’en 4 bits. Le TPU v7 de Google n’a pas non plus de mode 4 bits. Ses performances en précision 8 bits (FP8) sont de 4,6 pétaflops. Il est en revanche notable que l’accélérateur de Google soit le seul dont les performances en précision 16 bits (BF16) sont logiques : 2,3 pétaflops, soit deux fois moins qu’en 8 bits. En inférence, plus le nombre de bits est élevé, plus les réponses seront précises, mais générées à une vitesse inversement proportionnelle. Sur le Maia 200 et le Trainium3, les performances en 16 bits sont bizarrement quatre fois moindres qu’en 8 bits : respectivement 1,27 et 671 pétaflops. Cela signifie que, moyennant une consommation élevée de mémoire, les IA exécutées sur GCP, le cloud de Google, sont celles qui donneront les meilleurs résultats.