En douze ans d’existence, Clarifai a bâti une plateforme consacrée à la préparation de données, à l’entraînement et à l’inférence de modèles d’IA. Plus particulièrement, l’entreprise a rapidement été reconnue pour son expertise en computer vision.

Sa suite aurait attiré plus de 400 000 utilisateurs dans 170 pays. Ceux-là auraient réentraîné et déployé près de 1,5 million de modèles. Désormais, la société fondée en 2013 dans le New Jersey s’adapte à l’IA générative et à l’IA agentique.

« Nous travaillons dans tous les secteurs d’activité et supportons un grand nombre de cas d’usage », assure le docteur Matt Zeiler, fondateur et CEO de Clarifai, auprès du MagIT.

Sur son site, l’éditeur évoque des applications exploitant la recherche visuelle, la génération de métadonnées, la modération de contenus sur les réseaux sociaux, l’inspection visuelle dans l’industrie, mais également la reconnaissance d’objets et de personnes pour les besoins des agences fédérales et des armées américaines.

« Il s’agit d’une plateforme très horizontale et flexible qui permet de résoudre de nombreux problèmes », poursuit Matt Zeiler. « Ces organisations utilisent majoritairement nos outils pour déployer des modèles de computer vision, mais aussi beaucoup de LLM. Aujourd’hui, tout le monde parle d’IA générative et d’agents IA ».

Autoscaling, fractionnement des charges de travail GPU, optimisation des kernels CUDA : Clarifai mise sur ses douze années d’expérience

Le CEO de Clarifai croit que les fondations de la plateforme sont adaptées à cette nouvelle donne. « Nous sommes des pionniers à bien des égards. Il y a plus de dix ans, nous avons dû bâtir beaucoup de composants pour notre plateforme. Nous avons créé un framework pour les réseaux neuronaux avant Pytorch et TensorFlow. Nous avons optimisé les kernels CUDA de Nvidia. Nous sommes parmi les premiers à avoir géré des ressources GPU dans Kubernetes », liste le dirigeant.

De fait, l’éditeur fournit des capacités pour gérer des charges de travail d’IA à travers des environnements multicloud et sur site depuis un control plane unique pouvant être lui-même installé sur un cloud ou sur site. Clarifai défend l’agnosticisme de sa plateforme qui peut orchestrer des instances Microsoft Azure, AWS, GCP, Oracle Cloud Infrastructure et le néocloud Vultr. Sur site, l’éditeur maintient un partenariat avec HPE et se garantit de la compatibilité de sa plateforme avec les serveurs Dell, Lenovo et Supermicro. Il prend aussi en charge les machines dotées de GPU Nvidia et AMD, ainsi que les CPU d’Intel et d’AMD.

« Vous créez des charges de travail et la plateforme vous aide à les exécuter dans tous les clouds ou sur site de la même manière », assure Matt Zeiler. « Nous proposons également des fonctions de fractionnement de GPU, d’autoscaling, la prise en charge des instances spot et les traitements en batch ».

Si l’autoscaling – la mise à l’échelle de l’infrastructure en fonction du trafic – est désormais populaire, le fractionnement de GPU demeure une pratique méconnue.

« Les entreprises dépensent beaucoup d’argent dans l’infrastructure, mais elle est sous-utilisée. Avec le fractionnement, nous pouvons réduire la consommation de ressources GPU par deux en allouant correctement les charges de travail et le déploiement des modèles », explique Matt Zeiler. « Par exemple, avec un nœud doté de quatre GPU, vous pouvez inférer deux LLM qui, par défaut, seront déployés sur les quatre GPU. Avec notre control plane, vous pouvez répartir ces deux LLM sur deux cartes, ce qui vous libère de la VRAM pour exécuter d’autres modèles ou charges de travail », illustre-t-il. La même technique exploitée dans le cloud permet d’envisager l’adoption d’instances plus petites et donc moins coûteuses, assure l’éditeur. Concrètement, une simple commande suffit à déterminer la VRAM allouée aux différents LLM déployés sur les serveurs.

De surcroît, les ingénieurs de Clarifai optimisent les configurations des LLM afin de gagner en vitesse d’inférence. « Nous pouvons exécuter un modèle de 7 milliards de paramètres deux fois plus rapidement avec un nombre de tokens à la seconde plus élevé que nos concurrents », argue Matt Zeiler.