Pour rappel, la startup avait lancé en 2024 les LLM Command R et R+, qu’elles avaient principalement dédiés aux applications RAG (Retrieval Augmented Generation). Elle entraîne par ailleurs des modèles de reranking (le dernier en date, Cohere Rerank 3.5, est disponible depuis le mois de décembre 2024) et d’embeddings, ainsi qu’un VLM, Aya Vision. Il fallait que cet acteur revienne dans la danse face à OpenAI, Mistral AI ou encore DeepSeek.

Command A a été entraîné sur 23 langues différentes, dont l’anglais et le français et s’appuie sur une architecture Transformer « optimisée ». Le modèle comprend quatre couches de réseaux de neurones consacrées à une fenêtre d’attention glissante de 4 096 tokens, un mécanisme RoPE et une attention globale. Cela doit permettre de gagner en efficacité computationnelle tout en s’adaptant à la taille des contenus poussés par l’utilisateur en entrée. Google DeepMind a peu ou prou utilisé les mêmes briques pour Gemma 3.

Command A égale DeepSeek V3 et GPT-4o avec deux GPUs Command A a été entraîné pour accomplir des tâches liées à l’agentique et multilingues. Command A proposerait des performances plus ou moins équivalentes à GPT-4o et à DeepSeek-V3 dans les bancs d’essai lié à la programmation. En outre, l’entreprise canadienne a mis en place ses propres benchmarks pour évaluer les performances de son modèle face à GPT-4o. Elle les a confrontés dans des exercices RAG liés à la rédaction de FAQ techniques, à l’assistance pour des responsables de communication et pour des professionnels IT, à la production de FAQ RH ou encore aux services clients. Command A serait globalement meilleur, mais surpasse principalement le LLM d’OpenAI dans les tâches associées à la production de foires aux questions techniques et à la communication. La startup canadienne insiste : Command A répondrait de manière sûre aux questions à propos des données internes des entreprises. Malgré sa taille, ce LLM propriétaire doté d’une fenêtre de 256 000 tokens peut être déployé sur deux GPU, contrairement aux 32 GPU H100 minimum nécessaire pour exécuter DeepSeek V3 ou R1. Le modèle du fournisseur générerait 156 tokens par seconde avec 1 000 tokens de contexte, quand GPT-4o en produit 89 à la seconde, et DeepSeek V3, 64 tokens/sec.