Très opaque et propriétaire, faut-il fuir Grok-3 ?

La startup américaine assure que ses prochains modèles de raisonnement de la collection Grok-3 surpassent ceux de Google et d’OpenAI. Ils sont aussi peu transparents, encore moins ouverts et posent des questions d’éthique.

Le PDG de xAI, Elon Musk, défie à nouveau OpenAI avec le grand modèle de langage Grok-3, environ une semaine après avoir fait une offre d’achat à OpenAI.

XAI a présenté Grok-3 et Grok-3 mini lundi lors d’un direct avec Elon Musk, les cofondateurs de xAI, Jimmy Ba et Yuhuai Wu, et l’ingénieur en chef Igor Babuschkin. Les nouveaux modèles ont bénéficié d’une puissance de calcul 10 fois supérieure à celle de Grok-2, selon le fournisseur.

XAI « prépare » l’entraînement de Grok 3 sur un cluster appelé Colossus. Construit avec l’aide de Supermicro, celui-ci est originellement doté de 100 000 GPU Nvidia H100, sur la base de serveurs de HGX. En fonctionnement à pleine puissance depuis septembre 2024, celui-ci devrait être très prochainement doté de 200 000 GPU. Il y a quelques mois, Elon Musk assurait qu’il serait doté d’au moins 50 000 GPU Nvidia H200.

Surpasser Google DeepMind et OpenAI

Grok-3 et Grok-3 mini bêta surpasseraient déjà GPT-4o d’OpenAI, Google Gemini et DeepSeek-V3 dans des tests de référence portant sur les mathématiques, les sciences et la programmation, avance xAI.

Grok-3 et Grok-3 mini sont également des modèles de raisonnement. Ils devanceraient d’autres modèles comme OpenAI o1, DeepSeek-R1 et Gemini 2.0 Flash Thinking.

La startup affirme que la version expérimentale de Grok-3 a obtenu un score élevé sur Chatbot Arena, un site d’évaluation comparative LLM public qui produit des réponses de deux modèles inconnus différents à des fins de comparaison. Le nom de code de la première version de Grok-3 était Chocolate.

Comme OpenAI, XAI a également dévoilé un nouvel outil de « deep search », qui doit servir de moteur de recherche de nouvelle génération.

L’annonce de Grok-3 intervient alors que la concurrence entre les fournisseurs d’IA s’est accrue au cours des dernières semaines, en commençant par la startup d’IA chinoise DeepSeek. OpenAI a par exemple précipité la disponibilité d’o3-mini et Sam Altman a déjà annoncé que GPT-4.5 serait le dernier modèle qui ne « raisonne » pas, tout en confirmant l’existence de GPT-5.

Merci DeepSeek ?

DeepSeek a dévoilé la méthode pour entraîner son modèle « open weight » R1. De même, la startup chinoise n’interdit pas l’usage de données synthétiques générées par ses modèles pour l’entraînement d’autres LLM. Ainsi, mettre sur pied des modèles de raisonnement serait bien plus simple.

« Vous pouvez entraîner n’importe quel modèle à répondre à des tests de raisonnement logique chronométré », lance Bradley Shimmin, analyste chez Omdia, une division d’Informa TechTarget [également propriétaire du MagIT].

Cependant, xAI n’est pas le seul fournisseur à pouvoir le faire. Par exemple, le 12 février, Open Thoughts, une communauté de chercheurs, a publié OpenThinker-32B, un modèle de raisonnement entraîné à l’aide de données synthétiques générées par DeepSeek-R1.

Grok-3 ressemble également au modèle de raisonnement de DeepSeek, a déclaré David Nicholson, analyste chez Futurum Group.

« Je ne vois pas de grandes différences, si ce n’est qu’il n’est pas encombré par la censure [techniquement, il faut parler de biais, N.D.L.R.] intégrée à DeepSeek », déclare-t-il.

« Ouvert » ou « fermé »

Il apparaît impossible d’affirmer que xAI a utilisé DeepSeek-R1 pour entraîner Grok-3. Il n’est pas non plus possible d’évoquer les méthodes utilisées par la startup pour infuser des notions de « raisonnement » au sein de ses LLM. Le fournisseur n’a pas publié de rapport technique. La seule information dévoilée dans un billet de blog concerne la fenêtre de contexte de Grok-3 : 1 million de tokens, comme Gemini 2.0.

« Il n’y a aucune transparence sur la façon dont cette chose a été fabriquée, ce qu’elle fait et pourquoi elle le fait », affirme Bradley Shimmin.

Ce manque d’information éloigne considérablement xAI de son approche initiale. Grok-1 était un modèle « open weight ». Elon Musk a déclaré lors de la présentation en direct de lundi que l’éditeur n’avait pas encore ouvert Grok-2, mais qu’il prévoyait de le faire une fois que Grok-3 serait entièrement disponible et parvenu à « maturité ».

Selon M. Shimmin, la stratégie consistant à ne libérer que la version précédente du modèle, plutôt que la version actuelle, permettrait à xAI de protéger sa proposition de valeur.

La stratégie de xAI est un juste milieu dans le débat sur l’open source et les vendeurs d’IA qui gagnent de l’argent grâce à leur technologie, selon David Nicholson. « Il s’agit d’un équilibre raisonnable, qui consiste à dire : “nous nous réservons le droit de garder secrète la pointe de ce que nous faisons, puis, au fil du temps, nous ouvrirons cette technologie aux développeurs pour qu’ils puissent l’utiliser avec des licences illimitées” ».

Grok en entreprise

Cependant, le manque de transparence n’invite pas les entreprises à adopter Grok-3.

Les entreprises ont tendance à préférer les fournisseurs comme IBM qui sont très transparents et qui communiquent sur la manière dont elles collectent les données de pré-entraînement, par rapport à ceux qui sont plus fermés, d’après Bradley Shimmin.

« Ce niveau de transparence est essentiel pour que les entreprises puissent choisir un modèle dont elles savent qu’il est protégé contre tout litige futur [...]. »
Bradley ShimminAnalyste, Omdia

Le 14 février, IBM a présenté Granite Vision, un petit modèle de langage-vision dont les poids sont sous licence Apache 2.0. Le rapport technique détaille le processus et les données utilisées lors de l’entraînement.

« Ce niveau de transparence est essentiel pour que les entreprises puissent choisir un modèle dont elles savent qu’il est protégé contre tout litige futur ou qu’il leur permet au moins d’éliminer les préjugés qu’elles souhaitent intégrer dans leur solution », poursuit M. Shimmin. « Nous ne savons pas du tout quels sont ces biais dans Grok-3 ».

On peut également se demander si les entreprises sont prêtes pour le type d’« honnêteté » que Grok-3 pourrait afficher, d’après David Nicholson.

« Il reste à voir si les entreprises clientes adopteront une approche qui est personnifiée par le type de comportement d’Elon Musk », avance-t-il. Elon Musk a clairement indiqué que Grok n’incarnait pas ce qu’il appelle un programme « woke ». Cela contraste fortement avec l’approche d’OpenAI et de Google, beaucoup plus à cheval sur l’éthique et la lutte contre les préjugés, un sujet très sensible aux États-Unis.

Non pas que toutes les sociétés défendent corps et âme ces notions, mais l’irrévérence (pour l’écrire poliment) n’est jamais très bonne pour les affaires.  

Toutefois, M. Nicholson a ajouté que le fait que Grok-3 soit un concurrent sur le marché de l’IA est bénéfique. « C’est une bonne nouvelle qu’un autre concurrent se lance, et en fin de compte, cela fera baisser le coût de l’IA pour tout le monde », assure-t-il.

Selon Elon Musk, la version actuelle de Grok-3 présente quelques imperfections, mais des améliorations seront apportées quotidiennement. En outre, XAI introduira la capacité vocale dans les mois à venir.

xAI a également révélé qu’elle lançait un nouvel abonnement SuperGrok et un site web appelé Grok.com.

Pour approfondir sur IA Responsable, IA durable, explicabilité, cadre réglementaire