
Getty Images/iStockphoto
LLM-as-a-Service : Scaleway propose ses services d’inférence depuis Hugging Face
Jusqu'alors, Hugging Face avait connecté sa plateforme avec les services d’inférence de néocloud. Scaleway est le premier fournisseur français à se connecter à la bibliothèque de modèles d'IA open weight.
L’une des fonctionnalités clés d’Hugging Face n’est autre qu’Inference Provider. Celle-ci permet de tester et d'utiliser – à travers une API unique – des modèles NLP et d’IA générative sur les instances de différents fournisseurs.
Ici, point de Google Cloud, AWS et Microsoft Azure. Hugging Face s’est, dans ce cas, rapproché d’hébergeurs spécialistes des GPU, de fabricants de puces IA, de néoclouds et de fournisseurs de LLM eux-mêmes. L’on y retrouve, entre autres, Groq, Cohere, Nebius, Fireworks, SambaNova, Cerebras, Together.AI, Replicate et Nscale.
Le 19 septembre, Hugging Face a annoncé l’arrivée de Scaleway comme Inference Provider.
C’est le premier fournisseur de cloud français à rejoindre cette liste. Il ne s’agit pas d’exposer les instances GPU, mais de fournir des LLM as a Service en mode « serverless ». Pour commencer, Scaleway propose neuf LLM « open weight » : gpt-oss 120b, gemma 3-27b it, Llama 3.1-8B, Llama 3.3-70B, Qwen 2.5-Coder-32B, Qwen 3 Coder-30B-A3B, Qwen 3-235-B-A22B, Deepseek R1-Distill-Lllama-70B et BGE-multilingual-gemma 2.
Une belle vitrine pour Scaleway, la pastille « souveraine » pour Hugging Face
Ces modèles sont hébergés sur des serveurs localisés à Paris. Ils sont majoritairement dédiés à la génération de texte et de code. BGE-multilingual-gemma 2 est le seul modèle d’embedding. Les API associées prendraient en charge les sorties structurées, les appels de fonction et les charges de travail « image to text ».
« Avec Scaleway, les développeurs peuvent désormais accéder directement au service d’inférence d’un grand fournisseur de cloud européen », affirme Julien Chaumond, cofondateur et CTO de Hugging Face, dans un communiqué de presse. « Il est ainsi plus facile que jamais d’essayer un fournisseur conforme à la réglementation européenne, tout en continuant à offrir une inférence serverless pour plusieurs modèles ouverts de haute qualité et en élargissant le choix pour la communauté ».
Les deux partenaires vantent les temps de latence sous les 200 millisecondes avant la délivrance du premier token pour les clients européens. Les prix des appels API commencent à 20 centimes d’euro par million de tokens en entrée et 0,20 euro en sortie pour Llama 3.1 8B. La plupart des appels sont facturés 0,90 euro pour 1 million de tokens en entrée et 0,90 euro pour le même volume de tokens en sortie.
La facturation peut être directement appliquée sur le compte Hugging Face ou sur celui associé à Scaleway. Les API peuvent être depuis l’interface d’Hugging Face, mais aussi depuis ses SDK JavaScript et Python.
Selon Anthony Monthe, fondateur du bureau d’études Cloud Mercato, les instances GPU dédiées commencent à manquer. Les fournisseurs cloud et de LLM préfèrent réserver leurs capacités disponibles pour les usages à la demande, plus volatiles. L’investissement pluriannuel de Microsoft dans Nebius (17,4 à 19,4 milliards de dollars) afin de lui fournir des capacités GPU dédiées depuis son data center de Vineland dans le New Jersey semble confirmer cette observation. Pour sa part, Scaleway affirme détenir 5000 GPU Nvidia H100.