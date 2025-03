Depuis la rentrée 2024, la rédaction évalue sur des machines personnelles différentes versions de plusieurs LLM téléchargeables gratuitement. Ces LLM comprennent actuellement Gemma 3 de Google, Llama 3.3 de Meta, Claude 3.7 Sonnet d’Anthropic, plusieurs versions de Mistral (Mistral, Mistral Small 3.1, Mistral Nemo, Mixtral), Granite 3.2 d’IBM, Qwen 2.5 d’Alibaba, ou encore DeepSeek R1, qui est surtout une surcouche de raisonnement par-dessus des versions « distillées » de Qwen ou Llama.

Notre protocole de test consiste à tenter de transformer des interviews enregistrées par nos journalistes lors de leurs reportages en articles directement publiables sur LeMagIT. Nous évaluons sa faisabilité technique sur une machine personnelle et la qualité du rendu avec les ressources disponibles. Précisons d’emblée que nous ne sommes pour l’heure jamais parvenus à faire travailler correctement une IA à notre place. Le seul intérêt de cet exercice est de comprendre les possibilités réelles de l’IA à partir d’un cas concret.

Notre protocole de test est un prompt qui comprend 1500 tokens (6000 caractères, soit deux pages de magazine) pour expliquer à l’IA comment écrire un article, plus une moyenne de 11 000 tokens pour la retranscription d’une interview d’environ 45 minutes. Un tel prompt est généralement trop lourd pour tenir dans la fenêtre gratuite d’une IA en ligne. D’où l’intérêt de télécharger une IA sur une machine personnelle, puisque le traitement reste gratuit, quelle que soit sa taille.

Le protocole est lancé depuis le logiciel communautaire LM Studio qui mime, sur la machine personnelle, l’interface des chatbots en ligne. LM Studio dispose d’une fonction pour télécharger directement les LLM. Cela étant, tous les LLM gratuitement téléchargeables sont disponibles sur le site Hugging Face.

Dans cette configuration, toujours, les LLM avec plus de paramètres (32B, 70B...) dépassent la capacité mémoire et, soit, ne se chargent même pas, soit génèrent des résultats tronqués (un article d’un seul paragraphe par exemple). Avec moins de paramètres, ils utilisent moins de mémoire et la qualité d’écriture chute dramatiquement (répétitions, informations peu claires). Utiliser des paramètres encodés sur moins de bits (3, 4, 5 ou 6) accélère de manière significative le traitement, mais réduit là aussi la qualité d’écriture, avec des fautes grammaticales, voire des mots inventés.

Dans cette configuration, la vitesse de traitement est de 6,82 tokens/seconde. La seule manière d’accélérer le traitement sans nuire au résultat est d’opter pour un SOC qui a une fréquence en GHz plus élevée, ou qui possède plus de cœurs de calcul.

Techniquement, la qualité du résultat est fonction de la quantité de mémoire utilisée par l’IA. À l’heure où nous écrivons ces lignes, le meilleur résultat est atteint avec un LLM de 27 milliards de paramètres encodés sur 8 bits (Gemma de Google, en version « 27B Q8_0 »), avec une fenêtre de contexte de 32 000 tokens et une longueur de prompt de 15 000 tokens, sur un Mac avec SOC M1 Max doté de 64 Go de RAM, dont 48 Go partagés entre les cœurs de processeurs (orchestration), les cœurs GPU (accélération vectorielle pour la recherche de réponses) et les cœurs NPU (accélération matricielle pour la compréhension des données entrées).

Quelle qualité peut-on espérer ?

Nos tests nous ont permis d’aboutir à des articles de presse rédigés correctement. Ils ont un angle, une chronologie cohérente de plusieurs parties thématiques, des citations au bon endroit, une accroche et une phrase de conclusion dynamiques.

En revanche, nous n’avons jamais réussi à obtenir d’article publiable. Quel que soit le LLM utilisé, y compris DeepSeek R1 et ses supposées facultés de raisonnement, l’IA est systématiquement incapable de hiérarchiser correctement les différents points discutés lors de l’interview. Elle passe toujours à côté du sujet et génère souvent des articles jolis, mais inintéressants. Parfois, elle écrit tout un laïus, richement argumenté, pour annoncer à ses lecteurs que l’entreprise interviewée... a des concurrents.

Les LLMs ne sont pas tous égaux dans le vocabulaire et le style d’écriture qu’ils choisissent. À l’heure où nous écrivons ces lignes, Llama 3.x de Meta fait des phrases pénibles à lire, tandis que Mistral et, dans une moindre mesure, Gemma ont une propension à écrire comme les agences de marketing, en multipliant les adjectifs flatteurs, mais dénués d’information concrète.

De manière assez étonnante, le LLM qui écrit le plus joliment en français dans la limite de la configuration de test est le chinois Qwen. Initialement, le LLM le plus compétent sur notre plateforme de test était Mixtral 8x7B (avec un x à la place du s) qui mixe huit LLM thématiques disposant chacun de seulement 7 milliards de paramètres.

Cependant, les meilleures options pour faire entrer Qwen et Mixtral dans les 48 Go de notre configuration de test sont, pour le premier, une version en seulement 14 milliards de paramètres et, pour le second, des paramètres codés sur 3 bits. Le premier écrit des informations peu claires et peu intéressantes, y compris quand il est mixé avec DeepSeek R1 (DeepSeek R1 n’est disponible qu’en version « distillée » d’un autre LLM, soit Qwen ou Llama). Le second multiplie les erreurs de syntaxe.

La version de Mixtral avec des paramètres codés sur 4 bits offrait un compromis intéressant, mais les évolutions récentes de LM Studio, avec une empreinte mémoire plus importante, empêchent l’IA de fonctionner correctement. Désormais, Mixtral « 8x7B Q4_K_M » produit des résultats tronqués.

Une alternative intéressante à Mixtral est le tout récent Mistral Small 3.1 en 24 milliards de paramètres codés sur 8 bits et qui, selon nos tests, produit un résultat d’une qualité assez proche de Gemma 3. Qui plus est légèrement plus rapidement, avec une vitesse de 8,65 tokens par seconde.