Groq déploie son cloud et ses serveurs d’inférence IA en Europe

Groq installe ses serveurs d’inférence IA et sa plateforme logicielle dans un data center appartenant à Equinix à Helsinki, en Finlande. Le fournisseur espère ainsi convaincre les entreprises européennes d’adopter ses services.

« Personne ne veut acheter des puces ». C’est de ce constat que part Jonathan Ross, cofondateur et CEO de Groq, une des têtes pensantes derrière le premier TPU de Google, pour expliquer la direction qu’il insuffle à son entreprise. « Les gens veulent exécuter des logiciels, des LLM. Ils souhaitent que ce soit rapide et pas cher », déclare-t-il, lors de RAISE Summit, une conférence qui s’est tenue du 8 au 9 juillet à Paris.

Groq a bien conçu et fait fabriquer des puces d’IA – les LPU (Language Processing Unit). Il vend des clusters équipés de ces puces, mais sa croissance, il la doit à GroqCloud, une plateforme d’inférence à la demande. Il sert des LLM open weight (LLama, Mistral AI, DeepSeek, Qwen, Gemma, etc.) et des services associés à travers des API compatibles avec langages de programmation populaires (JavaScript, Python) ainsi que les frameworks d’IA générative et agentique.

GroqCloud aurait séduit plus de 1,8 million d’utilisateurs.

Un intérêt économique pour la startup et des performances en hausse pour ses clients

En s’installant en Europe, Groq souhaite accroître ce nombre et convaincre les entreprises.

« L’Europe n’est pas la région la plus importante en nombre de développeurs, mais c’est la deuxième plus grande économie au monde », déclare Jonathan Ross. « J’estime que nous avons près de 500 000 développeurs sur Groq en Inde. Mais bien sûr, en Inde, les gens sont moins disposés à payer. Je crois me rappeler que 30 % des développeurs qui ont utilisé leur carte de crédit sur Groq se trouvent en Europe. Et ce avant que nous ayons un déploiement européen », poursuit-il. « Nous avons donc supposé que si nous déployions un centre de données ici, la demande serait encore plus forte ».

La startup installe donc ses clusters d’inférence dans un datacenter à proximité d’Helsinki, en Finlande. La promesse ? Une latence réduite, donc des performances encore meilleures, et un plus grand respect des réglementations européennes en matière de localisation des données.

Il brandit la notion d’IA souveraine, expliquant qu’il octroie une connexion privée à son centre de données installé en Europe. Et de rappeler que Groq a passé un partenariat pour être le fournisseur exclusif de solutions d’inférence sur site pour le Canadien Bell (500 MW de prévus, 7 MW actifs depuis juin). Groq est aussi en train d’étendre son déploiement dans le data center de Dammam en Arabie saoudite dans le cadre d’un accord à 1,5 milliard de dollars, après avoir installé un premier cluster en décembre 2024.

Or, le fournisseur basé à Mountain View conçoit et fabrique ses puces aux États-Unis et les installe dans des salles appartenant à un autre acteur américain. Malgré l’option « connexion privée », GroqCloud en Europe n’a donc pas grand-chose de « souverain ».

Les salles sans refroidissement liquide se libèrent, dixit Groq

L’autre acteur américain mentionné, c’est Equinix. Les deux partenaires se connaissent bien. Groq a commencé par bâtir un supercalculateur dans l’un de ses centres de données à Dallas, au Texas.

Pourquoi Helsinki ? « Le climat froid des pays du nord de l’Europe offre des avantages énormes », rappelle Judith Gardiner, vice-présidente, croissance et marchés émergents chez Equinix, lors d’une autre session du RAISE Summit. « Il y a aussi suffisamment d’énergie renouvelable. C’est en fait le réseau électrique qui a besoin de rattraper son retard pour être en mesure de supporter ces sources d’énergie et de l’utiliser pour alimenter, entre autres, les infrastructures d’IA ».

Groq n’est pas le seul à convoiter les data centers installés dans cette région, mais il semblerait que les capacités des salles Equinix choisies ne conviennent plus au précédent locataire.

« Nos puces consomment beaucoup moins d’énergie que les GPU. En comparaison, nous utilisons un tiers de l’énergie par token généré [par rapport à un GPU] », vante Jonathan Ross. « Nous refroidissons donc les puces à l’air. Et le centre de données que nous avons loué à Helsinki est en train de se libérer parce qu’un hyperscaler a mis fin à son bail ».

« Si vous voulez déployer des GPU, vous devez vous battre pour obtenir de grandes salles équipées d’un système de refroidissement liquide », ajoute-t-il. « Il n’y en a pas assez. Il y a davantage de centres de données refroidis à l’air. La quantité d’espace disponible dans les centres de données augmente donc pour nous ».

Groq ne refuse pas de fournir ses puces aux hyperscalers, mais le fournisseur aurait un rythme de déploiement plus rapide que ces géants du cloud, d’après le CEO.

Une efficience discutable à l’échelle

Mais est-ce réellement plus efficient qu’un système Nvidia ? En théorie, oui.

La première génération de LPU de Groq est gravée en 14 nanomètres et est dédiée à l’inférence. Dans les serveurs, la SRAM – la mémoire interne des LPU – est partagée entre les cartes qui sont interconnectées.

« La plus grande différence architecturale entre les LPU et les GPU réside dans le fait que les GPU utilisent une mémoire externe », affirme Jonathan Ross. « Pour comprendre la quantité d’énergie qu’une puce consomme, il faut savoir que les fils dans les puces agissent en réalité comme des condensateurs », poursuit-il. « Ainsi, lorsque vous envoyez des données à travers ces fils, vous les chargez et les déchargez. Plus le fil est long et large, plus il consomme d’énergie. Lorsque vous utilisez une mémoire externe, les données doivent parcourir une plus grande distance. De plus, elles passent par des fils plus larges, même si elles restent à l’intérieur de la puce ».

En conséquence, un GPU consommerait davantage d’énergie « simplement pour déplacer les données vers et depuis sa mémoire, ce que Groq utilise au total pour produire des tokens ».

Dans la pratique, cette efficience énergétique ne se vérifie pas à l’échelle.

Une puce LPU embarque 230 Mo de SRAM. Un cluster GroqRack est composé de huit serveurs GroqNode (+1 redondant) pour un total de 64 puces et 14 Go de SRAM partagée. La bande passante bi-sectionnée peut atteindre 3,2 To/s (80 To/s sur le die de la puce). Le TDP d’une carte Groq est au maximum de 375 watts, 240 en moyenne. Le rack 42U est équipé de quatre alimentations de 17,2 kW, dont deux redondantes.

Un rack 42U Nvidia HGX H100 vendu par Supermicro peut accueillir 32 GPU H100 SXM5 pour un total de 2,56 To de VRAM HBM3e (80 Go par carte) et une puissance maximale de 45 kW au sol. En revanche, chaque carte a une enveloppe thermique maximale de 700 Watts.

Un rack 42U HGX B200 du même groupe peut accueillir 64 GPU Nvidia B200 SXM6 (1 000 à 1 200 Watts de TDP par carte) dans huit serveurs 4U pour un total de 11,5 To de VRAM HBM3e (180 Go par carte, bande passante de 1,8 To/s). Un serveur 4U a besoin de 4 alimentations de 6,6 kW chacune, dont deux redondantes, soit 211 kW de puissance au total et 105 kW réellement utilisés.

Quand le grand modèle de langage de Meta Llama 4 Maverick (400 milliards de paramètres, seulement 17 activés) peut s’exécuter sur un seul serveur équipé de huit cartes H100 (640 Go de VRAM au total) ou de quatre cartes B200 180 Go (720 Go de VRAM), Groq exploite 3 000 puces (690 Go de SRAM), soit l’équivalent de 47 racks 42U. À cette échelle, l’équation environnementale semble en défaveur de la startup.

Groq développe sa prochaine puce. Elle sera gravée selon le procédé 4 nanomètres de Samsung (au Texas) et est promise comme très efficiente. Pour l’instant, Groq gagne surtout sur le volet de la latence.

« Avec un GPU ou un TPU, l’accent est mis sur l’exécution parallèle. Cela fonctionne très bien pour l’entraînement », compare le CEO de Groq. « Mais lorsque vous faites de l’inférence, il y a une composante séquentielle parce que vous ne pouvez pas prédire le centième token, tant que vous n’avez pas prédit les 99 précédents. Pour cela, vous avez besoin d’une faible latence ».

Les équipements existants n’étaient pas suffisants. Groq a développé sa propre technologie réseau.

« Nous ne pouvons pas utiliser InfiniBand, nous ne pouvons pas utiliser Ethernet, nous ne pouvons pas utiliser NVLink, rien de tout cela n’est suffisant. Nous avons donc fini par développer notre propre solution », affirme Jonathan Ross. « Même chose pour le runtime, même chose pour tout, jusqu’au bout. […] nous avons commencé par développer le compilateur et nous avons automatiquement compilé pour nos puces. Nous n’avons pas de kernel, c’est une architecture complètement différente [de Nvidia] », défend-il.

Enfin, à modèle équivalent, Groq pratique des tarifs plus doux que ceux d’AWS, de Microsoft ou de Google Cloud.

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)