Computex 2026 : Intel rapproche son catalogue de celui de Nvidia
En plus des processeurs et d’un GPU, Intel lance des clusters prêts à l’emploi qui rappellent les DGX de Nvidia, des cartes réseau similaires à celles de son concurrent et même sa propre implémentation de l’agent OpenClaw, similaire à NemoClaw par Nvidia.
Œuvrant à se montrer à la pointe des composants conçus pour l’inférence des IA déjà entraînées, Intel a profité du salon Computex, qui se tenait cette semaine, pour dévoiler une série de produits qui rapprochent un peu plus son catalogue de l’offre de Nvidia.
Après le processeur x86 Xeon 6+ plus économe en énergie que les ARM Grace et Vera de son concurrent, après le GPU Crescent Island qui embarque plus de mémoire que les autres pour exécuter des IA plus intelligentes, le public a pu découvrir des clusters de serveurs prêts à l’emploi et construits en partenariat avec Foxconn. Une approche qui fait furieusement penser aux clusters Nvidia DGX. Et aussi une carte Ethernet E835 pour offrir à ces machines une connectivité de 200 Gbit/s moins chère qu’avec les cartes à base de BlueField.
Des clusters d’inférence prêts au déploiement
Les racks de serveurs prêts à déployer seront tous basés sur des processeurs Xeon 6. Il s’agit plus exactement d’un catalogue de spécifications sur lequel Intel et Foxconn se sont accordés pour livrer des serveurs d’inférence selon divers scénarios : hébergeur de services d’inférences, baies d’inférences dans les datacenters d’appoint et en succursales, ou encore serveurs capables de piloter des robots dans les usines.
Parmi les exemples, Lip-Bu Tan, le PDG d’Intel (en photo en haut de cet article), a présenté sur scène un modèle refroidi à l’eau qui comprend 64 serveurs en boîtier demi-largeur 1U et qui totalise 36 864 cœurs x86, à raison de deux processeurs Xeon 6+ de 288 cœurs par serveur. Conçu pour exécuter les agents qui automatisent des tâches selon les ordres des utilisateurs et les conclusions des IA, ce cluster est aussi équipé de GPU pour exécuter les LLM.
À terme, vers la fin de l’année ou début 2027, ce seront deux cartes PCIe Arc Pro de série C, soit des Crescent Island, par serveur. En attendant, Intel et Foxconn ont présenté un cluster équipé de puces RDU SN50 de Sambanova qui pourrait être disponible d’ici à la rentrée prochaine. Les deux fournisseurs n’ont cependant pas ouvert le capot pour que l’on sache comment et combien de puces SN50 ils parvenaient à assembler, dans une seule baie de serveurs Xeon 6.
Des modèles refroidis par air précédemment montrés par SambaNova contenaient huit cartes PCIe montées sur un serveur doté de deux Xeon 6.
Le SN50 est similaire à la puce Groq dont Nvidia dote à présent ses clusters DGX pour accélérer les opérations d’inférence, en ce sens où ces deux composants embarquent des cœurs de calculs accolés chacun à une petite quantité de mémoire SRAM (soit le cache dans les processeurs), pour accélérer significativement la génération d’une réponse cohérente à partir des éléments de connaissance tirés d’un LLM et d’une base vectorielle.
La puce de Groq totalise 500 Mo de cache, ce qui est un peu mieux que les 432 Mo du SN50. En revanche, la puce de Groq lit, chaque fois, ses données sources depuis une mémoire externe, alors que le SN50 embarque 64 Go de mémoire HBM. De fait, le SN50 est en théorie plus rapide, car il ne chargera qu’une seule fois un LLM, si celui-ci pèse moins lourd qu’une grosse cinquantaine de milliards de paramètres.
200 Gbit/s avec des cartes plus économes
Les serveurs Xeon 6 avec ou sans carte accélératrice et les baies de stockage pourront désormais être interconnectés via des cartes Ethernet Intel E835 qui existent en divers modèles.
Lors de Computex, Intel a montré sur son stand un modèle PCIe doté de deux ports 100 Gbit/s, un modèle PCIe doté de quatre ports 25 Gbit/s et un modèle OCP (Open Compute Platform, le standard des hyperscalers) également doté de quatre ports 25 Gbit/s. Des configurations avec un port de 200 Gbit/s et deux ports de 25 Gbit/s seraient dans les cartons. Dans tous les cas, ces cartes occupent 8 voies PCIe 5.0.
E835 est plus exactement le nom de la puce contrôleur embarquée sur ces cartes. Intel se targue d’avoir mis au point une puce Ethernet 200 Gbit/s plus économe en énergie que les deux autres disponibles sur le marché. Une carte Intel E835 consommerait en opération 11,68 watts, à comparer aux 22,15 watts d’une carte Nvidia ConnectX-6 de Nvidia et 16,19 watts d’une carte BCM957508 de Broadcom.
Nvidia et Broadcom proposent déjà des cartes en 400 Gbit/s et ont tous deux annoncé des modèles en 800 Gbit/s. Mais selon Intel, ces cartes servent surtout à alimenter en données les clusters qui entraînent les IA. Pour l’inférence, une vitesse de 25 Gbit/s par port serait amplement suffisante.
Les cartes E835 supportent les protocoles RoCE v2 (réseau sans perte de paquet) et sa variante pour le stockage en mode bloc, NVMe/RoCE. On trouve aussi les plus classiques NVMe/TCP, iSCSI et aussi des accélérations pour les modes fichiers SMB et NFS, dans lesquels les paquets sont décodés au niveau de la carte, pour soulager le processeur du serveur hôte.
Ces cartes ne sont en revanche pas compatibles avec Spectrum-X, l’extension propriétaire de RoCE par Nvidia. Et Intel se refuse pour l’heure de parler de compatibilité avec Ultra Ethernet, le protocole « ouvert » que pousse Broadcom pour concurrencer Spectrum-X. Spectrum-X et Ultra-Ethernet ajoutent au protocole RoCE des messages qui sondent le réseau en amont. Ils servent à déterminer sur quel port d’un switch faire voyager des paquets, dans le but de réduire les embouteillages.
L’effet « One more thing » : SuperClaw
Plus anecdotique, un stand faisait la part belle à un logiciel Open source qu’Intel lancera en version beta d’ici à la fin du mois : l’agent SuperClaw.
À la manière de NemoClaw par Nvidia, il s’agit d’une réécriture de l’agent Open source OpenClaw. Le principe de ces logiciels est d’offrir une myriade de connecteurs entre l’utilisateur et son IA pour enrichir l’expérience. L’utilisateur peut envoyer ses prompts et lire les résultats depuis ses messageries habituelles (WhatsApp, Teams, etc.). Et l’agent peut ouvrir les applications locales pour extraire des contenus (e-mails, documents bureautiques, recherches Internet…) qu’il va soumettre à l’IA, en les injectant dans les prompts de l’utilisateur.
L’intérêt de SuperClaw, outre d’être plus sécurisé qu’OpenClaw, est surtout d’illustrer des cas d’usage de l’IA exécutables depuis une machine locale, ici à base de processeurs et de GPU Intel. La tendance chez tous les fournisseurs est que l’économie de l’IA reposerait dorénavant sur l’inférence depuis des ordinateurs sur site, plutôt que depuis des services en ligne.
En l’occurrence, tous les scénarios d’inférence montrés par Intel fonctionnent aussi depuis des stations de travail ou des serveurs d’appoint équipés de ses processeurs Core et de ses cartes PCIe Arc Pro. Ces configurations savent autant exécuter localement des LLM que les machines pour datacenters. Et Intel semblait convaincu qu’il fallait aussi jouer dans cette cour, Nvidia ayant encore dévoilé une machine personnelle pour faire de l’IA locale lors du même salon Computex.
