Elnur - stock.adobe.com
Model Vault : Cohere adapte ses modes de déploiement « privés » à l'IA agentique
Le fournisseur de LLM canadien a annoncé Model Vault, une plateforme SaaS dédiée sous la forme d’un cloud privé virtuel isolé pour l’inférence de modèles consacrés aux systèmes d’IA agentique et RAG. La solution est pensée comme un « compromis » entre les solutions SaaS et les déploiements self-managed en cloud ou sur site.
Les solutions SaaS multitenant de déploiement de grands modèles de langage n’offrent pas la sécurité et le contrôle attendu par la plupart des entreprises, juge Cohere.
Moins chères, elles peuvent toutefois provoquer des effets indésirables comme le phénomène de « voisins bruyants ». « Ces plateformes ont également tendance à limiter la configuration des modèles, à fournir peu de visibilité sur les performances des charges de travail et à ne pas répondre aux normes de conformité des entreprises hautement réglementées », déclare le fournisseur de LLM.
L’autohébergement, qui assure davantage de contrôle et (si cela est bien fait) de sécurité s’avère peu pratique à mettre en place.
La configuration du marché ne se prête pas au self-managed
De plus, les déploiements on premise ou derrière un VPC représentent des « fardeaux économiques et opérationnels » qui freinent les mises à l’échelle, considère l’entreprise canadienne. L’IA agentique ne faciliterait pas la tâche. « L’exécution de modèles nécessite toujours l’approvisionnement et la gestion du matériel, mais les charges de travail agentiques sont, étant donné leur conception, éclatées, multiformes et imprévisibles ».
Elle oublie de préciser que la pénurie de composants provoqués par le boom de l’IA générative, la monopolisation du carnet de commandes de Nvidia par les GAFAM et la tension en matière de disponibilité des instances GPU dans le cloud freinent, a priori, les projets d’IA privés. Or, comme Mistral AI, Cohere avait décidé de se différencier en proposant des déploiements à la main des entreprises, sur site ou en mode self-managed. C’est le deuxième fournisseur derrière la solution SAP EU AI Cloud.
« Pour être clair, il n’existe pas d’approche de déploiement unique qui convient à toutes les organisations », consentent les porte-parole de Cohere. « Pour certaines entreprises, les déploiements SaaS multilocataires ou autohébergés resteront le bon choix, en fonction des capacités internes, de la stratégie de données et des exigences réglementaires », ajoutent-ils. « Les entreprises dont les flux de travail sont très normalisés, par exemple, peuvent répondre aux besoins de conformité par des contrôles au niveau de l’application et continuer à privilégier les plateformes SaaS partagées ».
Cohere offrait déjà un mode de connectivité avec les VPC existants des clients sur AWS, GCP, Azure et OCI. Toutefois, les clients géraient eux-mêmes le provisionnement des instances GPU.
Le passage de l’IA agentique en production réclamerait l’accès à davantage de capacités d’inférence « sans augmenter la charge opérationnelle ». Model Vault est pensé comme la réponse aux entreprises concernées.
« Comme tous nos produits, il [Model Vault] est conçu pour les équipes d’entreprises qui ont besoin d’environnements d’IA privés, sécurisés et dédiés », écrit Joëlle Pineau, Chief AI Officer chez Cohere, ex-vice-présidente du département de la recherche en IA chez Meta. « Model Vault offre une solution idéale pour les entreprises qui ne souhaitent pas la complexité d’une infrastructure autogérée : une simplicité à la mode SaaS, avec une isolation et un contrôle de niveau entreprise ».
Des instances privées logiques avec des GPU dédiés
Plus précisément, Cohere Model Vault est un environnement dédié à l’inférence de ses modèles. C’est une des briques de sa plateforme North qui pouvait déjà être déployée derrière le VPC d’un client cloud. Techniquement, Model Vault est installé comme un cloud virtuel privé isolé. Les instances GPU ne sont pas partagées entre les clients. Chacun a le droit à des répartiteurs de charge, des proxys inversés, des middlewares et des serveurs d’inférence dédiés.
Cohere entend gérer ces instances pour les clients : déploiement des modèles, gestion des mises à jour et des dépendances, provisionnement, rightsizing, etc. Elle promet un SLA de 99,9 % et fournit un outil de monitoring simple, basé sur Grafana. Comme la plateforme North n’a pas besoin de GPU pour s’exécuter, les capacités de calcul seraient réservées à l’inférence. L’isolation est toutefois principalement logique : l’authentification, les nœuds Kubernetes, les CPU et la mémoire vive sont partagés.
« Les clients de Nord conservent l’entière propriété du control plane, qui couvre les logiques agentiques, l’orchestration du flux de travail, les états de conversation, le stockage des données, les pipelines », vante Cohere. « Ils bénéficient d’une flexibilité architecturale totale en ce qui concerne les données et les charges de travail qu’ils choisissent d’héberger sur site ou sur leurs VPC existants, et celles qui peuvent être gérées par Model Vault ».
Un « jardin de modèles » trop privé ?
Pour l’instant, tous les LLM, les modèles d’embedding et de reranking sont pris en charge dans l’offre. Cohere ajoutera au fil de l’eau une capacité de « self-serving », c’est-à-dire la capacité de gérer manuellement l’inférence et son échelle. Elle est déjà fonctionnelle pour les modèles consacrés aux systèmes RAG. Comme un service SaaS traditionnel, le provisionnement de Model Vault se fait sur plusieurs tailles d’instances (Small, Medium, Large, Extra Large) dont le fournisseur canadien ne précise pas les capacités. Une option « Zero Data Retention » permet le nettoyage automatique des entrées et des sorties des modèles stockées sur les GPU et les disques locaux associés.
Ce mode de déploiement diffère de ce que propose AWS avec Amazon Bedrock et GCP avec Google Vertex AI. La filiale d’Amazon et Google Cloud fournissent des points de terminaisons privés (PrivateLink) pour assurer la communication sécurisée des données derrière le VPC des clients vers des modèles qu’elles opèrent. Dans Microsoft Foundry, Azure liste un mode de déploiement « managed compute » où le client gère les instances de calcul dédiées. Tous les modes de déploiement (standard, serverless, self-managed) bénéficient d’un accès à un réseau privé. La solution de Cohere ne permet pas de déployer les LLM d’autres fournisseurs et manque de transparence en matière de tarification.
