kirill_makarov - stock.adobe.com

Command A : Cohere réduit lui aussi l’empreinte GPU de ses LLM

Le Canadien Cohere a présenté Command A, un modèle de 111 milliards de paramètres. Ce LLM conçu pour s’exécuter sur site tient sur deux GPU Nvidia H100 ou A100 et doit répondre aux besoins des entreprises.

Pour rappel, la startup avait lancé en 2024 les LLM Command R et R+, qu’elles avaient principalement dédiés aux applications RAG (Retrieval Augmented Generation). Elle entraîne par ailleurs des modèles de reranking (le dernier en date, Cohere Rerank 3.5, est disponible depuis le mois de décembre 2024) et d’embeddings, ainsi qu’un VLM, Aya Vision. Il fallait que cet acteur revienne dans la danse face à OpenAI, Mistral AI ou encore DeepSeek.

Command A a été entraîné sur 23 langues différentes, dont l’anglais et le français et s’appuie sur une architecture Transformer « optimisée ». Le modèle comprend quatre couches de réseaux de neurones consacrées à une fenêtre d’attention glissante de 4 096 tokens, un mécanisme RoPE et une attention globale. Cela doit permettre de gagner en efficacité computationnelle tout en s’adaptant à la taille des contenus poussés par l’utilisateur en entrée. Google DeepMind a peu ou prou utilisé les mêmes briques pour Gemma 3.

Command A égale DeepSeek V3 et GPT-4o avec deux GPUs

Command A a été entraîné pour accomplir des tâches liées à l’agentique et multilingues. Command A proposerait des performances plus ou moins équivalentes à GPT-4o et à DeepSeek-V3 dans les bancs d’essai lié à la programmation.

En outre, l’entreprise canadienne a mis en place ses propres benchmarks pour évaluer les performances de son modèle face à GPT-4o. Elle les a confrontés dans des exercices RAG liés à la rédaction de FAQ techniques, à l’assistance pour des responsables de communication et pour des professionnels IT, à la production de FAQ RH ou encore aux services clients. Command A serait globalement meilleur, mais surpasse principalement le LLM d’OpenAI dans les tâches associées à la production de foires aux questions techniques et à la communication.

La startup canadienne insiste : Command A répondrait de manière sûre aux questions à propos des données internes des entreprises.

Malgré sa taille, ce LLM propriétaire doté d’une fenêtre de 256 000 tokens peut être déployé sur deux GPU, contrairement aux 32 GPU H100 minimum nécessaire pour exécuter DeepSeek V3 ou R1. Le modèle du fournisseur générerait 156 tokens par seconde avec 1 000 tokens de contexte, quand GPT-4o en produit 89 à la seconde, et DeepSeek V3, 64 tokens/sec.

Cohere cible les déploiements sur site

« Avec une empreinte de déploiement de seulement deux A100 ou H100, il nécessite beaucoup moins de puissance de calcul que d’autres modèles comparables sur le marché. Ceci est particulièrement important pour les déploiements privés », avance l’équipe de Cohere, dans un billet de blog.

C’est d’ailleurs, à la manière de Mistral AI, que l’éditeur canadien souhaite se différencier en favorisant les déploiements dans un cloud privé ou sur site. Les appels API à Command A depuis la plateforme de l’éditeur (le modèle sera prochainement déployé sur différents clouds) coûtent 2,5 dollars américains pour 1 million de tokens en entrée et 10 dollars pour 1 million de tokens en sortie. « Les déploiements privés de Command A peuvent être jusqu’à 50 % moins chers que l’accès basé sur l’API », assure la startup. Et de mettre en avant une meilleure prise en charge de la langue arabe et de ses dialectes que les modèles concurrents. De fait, les réglementations dans un certain nombre de pays du monde arabe poussent les entreprises à déployer des technologies dans des instances de cloud privé.

Dans un même temps, Cohere développe deux plateformes. La première s’appelle Compass, il s’agit d’un système de type RAG as a Service et qui permet de combiner des bases de connaissances existantes attachées à des systèmes tiers. La seconde s’intitule North et est une plateforme de développement d’assistants et d’agents IA qui, elle aussi, s’intègre à des systèmes tiers comme des CRM et des ERP. Les deux solutions annoncées en janvier ne sont pas encore disponibles.

« La prochaine génération de modèles Cohere contribuera à alimenter une gamme d’applications d’IA pour des clients dans divers secteurs, tels que la finance, la santé, l’industrie manufacturière, l’énergie et le secteur public », envisage la startup. « En particulier, ces modèles s’intégreront parfaitement à North ». North et Compass pourront, elles aussi, être déployées sur site.

Enfin, Cohere Command A est disponible à la demande sur Hugging Face à des fins de recherche ou pour des usages non commerciaux. Il dépend d’une licence « open weights » (CC-BY-NC). La startup réclame des utilisateurs qu’ils respectent une liste de conditions pour le déployer.

Pour approfondir sur IA appliquée, GenAI, IA infusée