On-premise, edge, multicloud : Clarifai veut unifier l’inférence des modèles d’IA

L’expert de la computer vision s’appuie sur sa plateforme afin de proposer un centre de contrôle des modèles d’IA générative et des agents IA. Son atout majeur ? La possibilité de déployer des charges de travail sur site, dans plusieurs clouds et en local depuis une seule interface

En douze ans d’existence, Clarifai a bâti une plateforme consacrée à la préparation de données, à l’entraînement et à l’inférence de modèles d’IA. Plus particulièrement, l’entreprise a rapidement été reconnue pour son expertise en computer vision.

Sa suite aurait attiré plus de 400 000 utilisateurs dans 170 pays. Ceux-là auraient réentraîné et déployé près de 1,5 million de modèles. Désormais, la société fondée en 2013 dans le New Jersey s’adapte à l’IA générative et à l’IA agentique.

« Nous travaillons dans tous les secteurs d’activité et supportons un grand nombre de cas d’usage », assure le docteur Matt Zeiler, fondateur et CEO de Clarifai, auprès du MagIT.

Sur son site, l’éditeur évoque des applications exploitant la recherche visuelle, la génération de métadonnées, la modération de contenus sur les réseaux sociaux, l’inspection visuelle dans l’industrie, mais également la reconnaissance d’objets et de personnes pour les besoins des agences fédérales et des armées américaines.

« Il s’agit d’une plateforme très horizontale et flexible qui permet de résoudre de nombreux problèmes », poursuit Matt Zeiler. « Ces organisations utilisent majoritairement nos outils pour déployer des modèles de computer vision, mais aussi beaucoup de LLM. Aujourd’hui, tout le monde parle d’IA générative et d’agents IA ».

Autoscaling, fractionnement des charges de travail GPU, optimisation des kernels CUDA : Clarifai mise sur ses douze années d’expérience

Le CEO de Clarifai croit que les fondations de la plateforme sont adaptées à cette nouvelle donne. « Nous sommes des pionniers à bien des égards. Il y a plus de dix ans, nous avons dû bâtir beaucoup de composants pour notre plateforme. Nous avons créé un framework pour les réseaux neuronaux avant Pytorch et TensorFlow. Nous avons optimisé les kernels CUDA de Nvidia. Nous sommes parmi les premiers à avoir géré des ressources GPU dans Kubernetes », liste le dirigeant.

De fait, l’éditeur fournit des capacités pour gérer des charges de travail d’IA à travers des environnements multicloud et sur site depuis un control plane unique pouvant être lui-même installé sur un cloud ou sur site. Clarifai défend l’agnosticisme de sa plateforme qui peut orchestrer des instances Microsoft Azure, AWS, GCP, Oracle Cloud Infrastructure et le néocloud Vultr. Sur site, l’éditeur maintient un partenariat avec HPE et se garantit de la compatibilité de sa plateforme avec les serveurs Dell, Lenovo et Supermicro. Il prend aussi en charge les machines dotées de GPU Nvidia et AMD, ainsi que les CPU d’Intel et d’AMD.

« Vous créez des charges de travail et la plateforme vous aide à les exécuter dans tous les clouds ou sur site de la même manière », assure Matt Zeiler. « Nous proposons également des fonctions de fractionnement de GPU, d’autoscaling, la prise en charge des instances spot et les traitements en batch ».  

Si l’autoscaling – la mise à l’échelle de l’infrastructure en fonction du trafic – est désormais populaire, le fractionnement de GPU demeure une pratique méconnue.

« Les entreprises dépensent beaucoup d’argent dans l’infrastructure, mais elle est sous-utilisée. Avec le fractionnement, nous pouvons réduire la consommation de ressources GPU par deux en allouant correctement les charges de travail et le déploiement des modèles », explique Matt Zeiler. « Par exemple, avec un nœud doté de quatre GPU, vous pouvez inférer deux LLM qui, par défaut, seront déployés sur les quatre GPU. Avec notre control plane, vous pouvez répartir ces deux LLM sur deux cartes, ce qui vous libère de la VRAM pour exécuter d’autres modèles ou charges de travail », illustre-t-il. La même technique exploitée dans le cloud permet d’envisager l’adoption d’instances plus petites et donc moins coûteuses, assure l’éditeur. Concrètement, une simple commande suffit à déterminer la VRAM allouée aux différents LLM déployés sur les serveurs.

De surcroît, les ingénieurs de Clarifai optimisent les configurations des LLM afin de gagner en vitesse d’inférence. « Nous pouvons exécuter un modèle de 7 milliards de paramètres deux fois plus rapidement avec un nombre de tokens à la seconde plus élevé que nos concurrents », argue Matt Zeiler.

Local Runners : déployer des modèles d’IA sur des ordinateurs et sur des serveurs depuis une seule interface

Mais Clarifai ne veut pas s’arrêter à l’exécution de modèles d’IA dans des data centers. En ce mois de juillet, l’entreprise a présenté les « local runners ». Depuis l’API du control plane de la plateforme, il est possible de déployer des modèles sur des serveurs et des ordinateurs sous Linux, Windows 11 ou macOS.

« Nous voulons proposer une plateforme unifiée compatible avec tous les environnements et puces que nos clients utilisent. »
Matt ZeilerFondateur et CEO, Clarifai

« Sur ordinateur, nous prenons en charge les GPU AMD et Nvidia, les CPU, ainsi que les puces Apple », déclare Matt Zeiler. Démonstration à l’appui, le dirigeant a montré, depuis l’interface de Clarifai et l’usage d’une fonction Python, comment déployer un LLM « open weight » sur son MacBook.

Ces local runners sont compatibles avec les protocoles OpenAI API, Model Context Protocol (MCP), gRPC et HTTP. Clarifai a également fait en sorte que son « compute plane » localisé soit compatible avec les outils et frameworks du marché : Visual Studio Code, Vercel, LangChain, CrewAI, LiteLLM, LlamaIndex, Google ADK, les modèles OpenAI, Anthropic, Meta, etc.

« Nous voulons proposer une plateforme unifiée compatible avec tous les environnements et puces que nos clients utilisent », vante le dirigeant.

Les local runners peuvent servir pour exécuter des charges de travail critiques isolées des environnements cloud ou encore pour servir des cas d’usage en local, qui ne nécessite pas beaucoup de ressources de calcul.

Mais le CLI et l’interface visuelle de Clarifai embarquent une fonctionnalité qui révèle la raison d’être de ces environnements localisés. Depuis ces interfaces, un développeur ou un ingénieur peut redéployer en quelques clics un modèle d’IA sur une autre instance de son choix en utilisant la même API Clarifai. « Cela rend possibles beaucoup de scénarios », relate Matt Zeiler. « Par exemple, je peux commencer un prototype d’une application IA avec un local runner sur mon ordinateur, la déployer sur des serveurs sur site que mon entreprise a acquis. Quand les limites de ces ressources sont atteintes, je peux alors redéployer le modèle sur un néocloud ou les instances d’un hyperscaler sans avoir à me réoutiller ».

Prochainement, l’éditeur accompagnera cette fonctionnalité d’un tableau de bord de supervision de la latence et des coûts ventilés par clusters. « Cela permettra d’obtenir des indicateurs pour justifier le transfert d’une charge de travail d’un environnement à un autre », justifie le dirigeant.

Le 15 juillet dernier, l’entreprise a aussi dévoilé qu’elle prenait en charge l’hébergement de serveurs MCP. Ces clients peuvent donc déployer ces registres d’outils accessibles par les agents IA sur site, en cloud ou en local.  

En sus de la supervision des charges de travail IA, peu importe où elles sont installées, l’éditeur fournit une fonction de gestion des rôles et des accès (RBAC), une isolation des environnements par équipe et par projet, des logs d’audits, de l’analytique et le concept d’AI Lake.

« La notion d’AI Lake signifie que les versions des modèles (les checkpoints), les flux de travail, les évaluations, les embeddings, les annotations, les fichiers de configurations, etc., tout est géré depuis un seul espace cohérent », évoque le dirigeant de Clarifai.

Enfin et surtout, Clarifai propose des outils pour gérer les données d’entraînement et d’évaluation, et dispose de capacités de recherche vectorielle afin de propulser des systèmes RAG ainsi que d’un outil d’étiquetage automatisé des données. La plateforme permet aussi de piloter des pipelines de flux de travail d’IA et des fonctionnalités de fine-tuning à partir de templates.

L’éditeur affirme qu’il peut déployer plus de 500 modèles open weight et propriétaires à l’inférence, en mode serverless (facturé au million de tokens) ou sur des instances dédiées (coût par minute). Ses fonctions sont accessibles à partir de 300 dollars par mois pour les professionnels (et à 1 dollar par mois pour les développeurs qui voudraient les tester). Le déploiement hybride ou privé de la plateforme Clarifai dépend d’un investissement plus important basé sur l’utilisation des ressources de calcul.

Clarifai est un concurrent de Together AI, Fireworks AI, Modal, Baseten, mais aussi des suites comme Amazon SageMaker, GCP Vertex AI ou Azure AI Foundry.

Pour approfondir sur Hardware IA (GPU, FPGA, etc.)