BAIVECTOR - AdobeStock

Inférence IA à haute vitesse : OVHcloud choisit SambaNova

OVHcloud s’associe à SambaNova dans un partenariat non exclusif. Cette startup de la Silicon Valley développe des puces reprogrammables câblées pour l’inférence rapide des modèles de langage. Et ce, tout en étant moins énergivores que les GPU Nvidia.

Le fournisseur de cloud français menait aujourd’hui sa conférence annuelle, OVHcloud Summit 2025. L’occasion pour présenter sa stratégie en matière d’IA.

Selon Octave Klaba, cofondateur et PDG du groupe, il s’agit, entre autres, de décliner des capacités d’inférence. L’inférence, pour rappel, désigne l’exécution des modèles de machine learning et d’IA en production. Quand ChatGPT répond à la question d’un utilisateur, c’est de l’inférence.

Trois modes d’inférence IA

Octave Klaba, lui, distingue trois types d’inférence qu’il souhaite proposer sur OVHcloud. Il y a d’abord l’inférence de Base, déjà en disponibilité générale.

Deux autres modes seront prochainement disponibles.  

Dès le 31 décembre, l’inférence « batch » permettra de traiter de gros volumes de données de manière asynchrone. Et enfin, celle qui intéresse cet article, l’inférence « ultrarapide » attendue par les utilisateurs de la plupart des assistants IA. « Sur un outil de type ChatGPT, vous voyez les lettres se former devant vos yeux, ça rend fou », considère Octave Klaba.

Pour le mode Batch et Base, OVHcloud peut s’appuyer sur ses instances Nvidia existantes : H100, V100S, A10, L4, L40S, RTX 5000. Dès le 30 novembre, il fournira des H200 à travers les outils IA. Les RTX 6000 Pro, B200 et B300 sont au programme, mais aucune date de disponibilité n’a été fournie.

Mais pour l’inférence à haute vitesse, le fournisseur entend proposer un accès aux racks de SambaNova.

SambaNova, la promesse d’une inférence rapide à faible empreinte carbone

Bien moins connu que Nvidia, SambaNova est le concepteur américain d’une puce reprogrammable pensée pour exécuter des charges de travail d’IA (entraînement ou inférence). Ces puces se nomment RDU, pour « Reconfigurable, Dataflow Units ».

« Il est possible de reconfigurer les ASICS en fonction des charges de travail et des modèles. Ce qui le rend beaucoup plus pérenne », considère Octave Klaba, lors d’un point presse, en amont de l’OVHCloud Summit.

SambaNova, rencontrée par LeMagIT lors d’un IT Press Tour en 2022, a été cofondée par des anciens de Sun Microsystems/Oracle et des universitaires passés par Stanford. À l’époque, la licorne expliquait déjà que sa technologie pouvait exécuter des modèles de type GPT à grande vitesse.

Un rack SambaNovaUn rack SambaNova photographié en 2022.

« Nous avons testé Cerebras, Groq, et SambaNova », relate Octave Klaba. « Nous avons considéré que SambaNova propose le meilleur rapport performance-prix-empreinte dans les data centers ».

SambaNova arrive à faire tenir 16 SN40L, la quatrième génération de sa puce gravée en 5 nm (par TSMC), dans un rack (2 RDU par lames, 8 lames). Pour fournir une capacité de calcul équivalent, Groq aurait besoin de 9 racks et Cerebras quatre. Le « SambaRack » peut exécuter des modèles frontières de plus de 400 milliards de paramètres, dont Llama 4 Maverick et DeepSeek R1 (671 milliards de paramètres). Selon les calculs de SambaNova, un rack peut accueillir jusqu’à 5 000 milliards de paramètres.

Autre particularité, une puce SN40L est dotée de 520 Mo de cache SRAM, de 64 Go de mémoire HBM. Elle peut être connectée à 768 Go de RAM DDR4. Au total, le rack SN40L-16 est doté de 8 Go de SRAM, d’un To de HBM et de 12 To de RAM DDR4. Ce rack consomme en moyenne 10 kW (14,5 kW en pic) et pourrait héberger des « douzaines » de modèles à changer en « moins de 2 millisecondes », selon Octave Klaba. « Là où avec les GPU Nvidia cela prend 30 secondes à 3 minutes ». En comparaison, le très puissant rack GB300NVL72 (au total 40 To de HBM3e) consomme 130 à 140 kW, dixit Supermicro.

Open source et agents IA pour les métiers

Mais comme le précise le dirigeant du fournisseur français, c’est la rapidité des réponses qui est la chose plus intéressante.

Avec Llama 4 Maverick, SambaNova dit pouvoir obtenir plus de 100 tokens par seconde. Avec des modèles de petite taille, comme LLama 3.1 8B, il grimpe à plus de 1000 tokens par seconde, contre 1837 tokens par seconde chez Cerebras.

Pour rappel, Mistral AI propulse sa fonctionnalité Lightning Speed au sein de son application Le Chat à l'aide des puces Cerebras. Celles-ci sont installées dans un data center à Las Vegas.

« Nous sommes en train de déployer les premiers châssis SambaNova dans notre centre de données de Gravelines », affirme de son côté Octave Klaba. « Si le marché réagit positivement, l’objectif sera d’ajouter des racks dans chacun de nos data centers ».

Il ne s’agit pas de donner un accès direct aux instances GPU/RPU et aux frameworks de Nvidia et SambaNova. Ici, OVHcloud met à disposition ces capacités de calcul à travers le service AI Endpoint. Il propose via des API l’accès à une quarantaine de modèles d’IA générative et de NLP. Ces modèles sont majoritairement « open weight ».

« Notre stratégie en matière de GPU est orienté sur l’inférence, plus particulièrement des modèles open source » indique le PDG d’OVHcloud. En parallèle, le fournisseur français développe OmisimO, un assistant IA, propulsé par SHAI, un agent IA de programmation open source (Apache 2.0). L’idée est de favoriser l’émergence de cas d’usage réels, utile pour les métiers, comme des agents IA connectés au CRM des entreprises.

Le modèle de tarification des API AI Endpoint dépend globalement de la vitesse de la réponse. L’API de base est, de manière très classique, dépendante d’une facturation au token. Le prix dépend du LLM sélectionné. Pour les volumes de tokens traités via l’API Batch, OVHcloud promet un prix remisé et la possibilité de programmer les appels en dehors des pics de consommation habituels. L’API Fast réclamera un engagement mensuel minimum, mais le fournisseur garantira « des débits, des livraisons ultra-rapides et une confidentialité accrue ». La disponibilité de cette API est prévue en 2026.

L’annonce du partenariat tombe le lendemain de l’annonce des résultats du troisième trimestre fiscal 2026 de Nvidia. « Les ventes de Blackwell sont extraordinaires et les GPU pour le cloud sont épuisés », affirme Jensen Huang, fondateur et CEO de Nvidia, dans un communiqué de presse.

GPU : « un problème de modèle économique »

Interrogé sur la course à l’armement des fournisseurs cloud, Octave Klaba se veut prudent. « Moi, ce qui m’intéresse quand j’investis, c’est de faire de la croissance rentable. Je m’interdis de jouer au loto. Nous le faisons en fonction des besoins des clients. Nous voulons savoir qui va payer et pour quoi », martèle-t-il.

Le dirigeant dit maintenir une stratégie d’investissement « défensive ».

« La vérité concernant les GPU H100 achetés il y a trois ans, c’est qu’ils ne valent pratiquement plus rien », prétend-il. « Les gens vont progressivement découvrir que les cycles d’investissement dans les GPU vont beaucoup plus vite que les CPU. Au bout des 18 mois, 24 mois, vous avez déjà des grosses questions à vous poser. Et au bout de 36 mois, vous avez quasiment perdu 80 % de la valeur ».

Cela justifierait le fait qu’OVH n’investisse pas massivement dans des supercalculateurs d’entraînement. « Les fournisseurs de LLM sont en train de passer à l’encodage en précision FP4 lors de l’entraînement. Les GPU H100 ne prennent pas en charge le FP4 », détaille Octave Klaba. « Les GPU H200 sont déjà bien distribués, est-ce que vous bradez votre H100 ou vous perdez les clients parce qu’ils vont utiliser des H200 pour moins cher ? Il y a un problème de modèle économique », conclut-il.

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)