Comment LeMagIT expérimente les IA sur machines personnelles
Google Gemma, Meta Llama, Mistral ou encore DeepSeek sont téléchargeables gratuitement pour être utilisés sur une machine personnelle sans payer de services en ligne ni exposer ses données en cloud. Mais avec quels résultats ? LeMagIT a testé ses propres cas d’usage.
Depuis la rentrée 2024, la rédaction évalue sur des machines personnelles différentes versions de plusieurs LLM téléchargeables gratuitement. Ces LLM comprennent actuellement Gemma 3 de Google, Llama 3.3 de Meta, Claude 3,7 Sonnet d’Anthropic, plusieurs versions de Mistral (Mistral, Mistral Small 3.1, Mistral Nemo, Mixtral), Granite 3.2 d’IBM, Qwen 2.5 d’Alibaba, ou encore DeepSeek R1, qui est surtout une surcouche de raisonnement par-dessus des versions « distillées » de Qwen ou Llama.
Notre protocole de test consiste à tenter de transformer des interviews enregistrées par nos journalistes lors de leurs reportages en articles directement publiables sur LeMagIT. Nous évaluons sa faisabilité technique sur une machine personnelle et la qualité du rendu avec les ressources disponibles. Précisons d’emblée que nous ne sommes pour l’heure jamais parvenus à faire travailler correctement une IA à notre place. Le seul intérêt de cet exercice est de comprendre les possibilités réelles de l’IA à partir d’un cas concret.
Notre protocole de test est un prompt qui comprend 1 500 tokens (6 000 caractères, soit deux pages de magazine) pour expliquer à l’IA comment écrire un article, plus une moyenne de 11 000 tokens pour la retranscription d’une interview d’environ 45 minutes. Un tel prompt est généralement trop lourd pour tenir dans la fenêtre gratuite d’une IA en ligne. D’où l’intérêt de télécharger une IA sur une machine personnelle, puisque le traitement reste gratuit, quelle que soit sa taille.
Le protocole est lancé depuis le logiciel communautaire LM Studio qui mime, sur la machine personnelle, l’interface des chatbots en ligne. LM Studio dispose d’une fonction pour télécharger directement les LLM. Cela étant, tous les LLM gratuitement téléchargeables sont disponibles sur le site Hugging Face.
Quelles sont les limites techniques ?
Techniquement, la qualité du résultat est fonction de la quantité de mémoire utilisée par l’IA. À l’heure où nous écrivons ces lignes, le meilleur résultat est atteint avec un LLM de 27 milliards de paramètres encodés sur 8 bits (Gemma de Google, en version « 27B Q8_0 »), avec une fenêtre de contexte de 32 000 tokens et une longueur de prompt de 15 000 tokens, sur un Mac avec SOC M1 Max doté de 64 Go de RAM, dont 48 Go partagés entre les cœurs de processeurs (orchestration), les cœurs GPU (accélération vectorielle pour la recherche de réponses) et les cœurs NPU (accélération matricielle pour la compréhension des données entrées).
Dans cette configuration, la vitesse de traitement est de 6,82 tokens/seconde. La seule manière d’accélérer le traitement sans nuire au résultat est d’opter pour un SOC qui a une fréquence en GHz plus élevée, ou qui possède plus de cœurs de calcul.
Dans cette configuration, toujours, les LLM avec plus de paramètres (32B, 70B…) dépassent la capacité mémoire et, soit, ne se chargent même pas, soit génèrent des résultats tronqués (un article d’un seul paragraphe par exemple). Avec moins de paramètres, ils utilisent moins de mémoire et la qualité d’écriture chute dramatiquement (répétitions, informations peu claires). Utiliser des paramètres encodés sur moins de bits (3, 4, 5 ou 6) accélère de manière significative le traitement, mais réduit là aussi la qualité d’écriture, avec des fautes grammaticales, voire des mots inventés.
La taille en tokens de la fenêtre de prompt, enfin, est fonction de la taille des données à fournir à l’IA. Elle n’est pas négociable. Si cette taille sature la mémoire, alors il faut opter pour un LLM avec moins de paramètres, qui libérera de la RAM au détriment de la qualité du résultat final.
Quelle qualité peut-on espérer ?
Nos tests nous ont permis d’aboutir à des articles de presse rédigés correctement. Ils ont un angle, une chronologie cohérente de plusieurs parties thématiques, des citations au bon endroit, une accroche et une phrase de conclusion dynamiques.
Quel que soit le LLM utilisé, l’IA est systématiquement incapable de hiérarchiser correctement les différents points discutés lors de l’interview.
En revanche, nous n’avons jamais réussi à obtenir d’article publiable. Quel que soit le LLM utilisé, y compris DeepSeek R1 et ses supposées facultés de raisonnement, l’IA est systématiquement incapable de hiérarchiser correctement les différents points discutés lors de l’interview. Elle passe toujours à côté du sujet et génère souvent des articles jolis, mais inintéressants. Parfois, elle écrit tout un laïus, richement argumenté, pour annoncer à ses lecteurs que l’entreprise interviewée… a des concurrents.
Les LLMs ne sont pas tous égaux dans le vocabulaire et le style d’écriture qu’ils choisissent. À l’heure où nous écrivons ces lignes, Llama 3.x de Meta fait des phrases pénibles à lire, tandis que Mistral et, dans une moindre mesure, Gemma ont une propension à écrire comme les agences de marketing, en multipliant les adjectifs flatteurs, mais dénués d’information concrète.
De manière assez étonnante, le LLM qui écrit le plus joliment en français dans la limite de la configuration de test est le Chinois Qwen. Initialement, le LLM le plus compétent sur notre plateforme de test était Mixtral 8x7B (avec un x à la place du s) qui mixe huit LLM thématiques disposant chacun de seulement 7 milliards de paramètres.
Cependant, les meilleures options pour faire entrer Qwen et Mixtral dans les 48 Go de notre configuration de test sont, pour le premier, une version en seulement 14 milliards de paramètres et, pour le second, des paramètres codés sur 3 bits. Le premier écrit des informations peu claires et peu intéressantes, y compris quand il est mixé avec DeepSeek R1 (DeepSeek R1 n’est disponible qu’en version « distillée » d’un autre LLM, soit Qwen ou Llama). Le second multiplie les erreurs de syntaxe.
La version de Mixtral avec des paramètres codés sur 4 bits offrait un compromis intéressant, mais les évolutions récentes de LM Studio, avec une empreinte mémoire plus importante, empêchent l’IA de fonctionner correctement. Désormais, Mixtral « 8x7B Q4_K_M » produit des résultats tronqués.
Une alternative intéressante à Mixtral est le tout récent Mistral Small 3.1 en 24 milliards de paramètres codés sur 8 bits et qui, selon nos tests, produit un résultat d’une qualité assez proche de Gemma 3. Qui plus est, légèrement plus rapidement, avec une vitesse de 8,65 tokens par seconde.
Quelles sont les optimisations matérielles possibles ?
Selon les spécialistes interrogés par LeMagIT, l’architecture matérielle la plus propice à appuyer le travail d’une IA générative sur une machine personnelle est celle où la même RAM est accessible à tous les types de cœurs de calcul à la fois. En pratique, il s’agit d’utiliser une machine basée sur une puce SoC (System-on-Chip) où les cœurs CPU, GPU, NPU sont connectés ensemble au même accès physique et logique vers la RAM, avec des données qui sont situées aux mêmes adresses pour tous les circuits.
Lorsque ce n’est pas le cas, c’est-à-dire lorsque la machine personnelle dispose d’un GPU externe avec sa propre mémoire, ou lorsque le processeur est bien un SoC qui intègre les cœurs CPU, GPU et NPU, mais où chacun dispose d’un accès à une partie dédiée dans la RAM commune, alors les LLM ont besoin de plus de mémoire pour fonctionner. Car il faut répliquer les mêmes données dans chaque partie dédiée aux circuits.
Ainsi, s’il est bien possible d’exécuter un LLM de 27 milliards de paramètres codés en 8 bits sur un Mac Silicon M doté de 48 Go de RAM partagée, il faudrait se contenter, selon les mêmes critères d’évaluation, d’un LLM en 13 milliards de paramètres sur un PC où un total de 48 Go de RAM seraient répartis entre 24 Go de RAM pour le processeur et 24 Go de RAM sur la carte graphique.
Ce constat explique le succès dans un premier temps des Mac à base de Silicon M pour exécuter des LLM localement, car cette puce est un SoC où tous les circuits bénéficient d’un accès UMA (Unified Memory Architecture). Début 2025, AMD a imité cette architecture dans sa gamme de SoC Ryzen AI Max. À l’heure où nous écrivons ces lignes, les SoC Core Ultra d’Intel, qui regroupent CPU, GPU et NPU, n’ont pas un tel accès unifié à la mémoire.
Comment écrire un bon prompt ?
Rédiger le prompt qui explique comment écrire un type d’article en particulier est un travail d’ingénierie. L’astuce pour bien le démarrer consiste à soumettre à l’IA un travail déjà effectué par un humain (en ce qui nous concerne, un article final accompagné de la retranscription de l’interview) et lui demander quel prompt il aurait fallu lui soumettre pour qu’elle réalise le même travail. Environ cinq exemples très différents suffisent pour déterminer les points essentiels du prompt à rédiger, pour un type d’article en particulier.
L’astuce pour bien démarrer consiste à soumettre à l’IA un travail déjà effectué par un humain et lui demander quel prompt il aurait fallu lui soumettre pour qu’elle réalise le même travail.
Cependant, l’IA produit systématiquement des prompts trop courts, qui ne lui suffiront jamais pour écrire un article complet. Le travail consiste donc à se servir des pistes qu’elle nous donne et à les étayer avec toutes les connaissances métier possibles.
À noter que plus le prompt est rédigé dans un style agréable à lire, moins l’IA comprend précisément de quoi on lui parle dans certaines phrases. Pour contourner ce biais, il faut éviter au maximum les pronoms (« il », « celui-ci », « cela », etc.) et répéter le sujet à chaque fois (« l’article », « l’article », « l’article »…). Le prompt n’en sera que plus pénible à lire pour un humain, mais gagnera en efficacité pour l’IA.
Faire en sorte que l’IA ait suffisamment de latitude pour produire des contenus variés à chaque fois relève de l’art du tâtonnement. Malgré tous nos efforts, tous les articles produits par notre protocole de test ont un air de famille. Il y aurait un effort à faire pour parvenir à synthétiser sous la forme de différents prompts concurrents toute l’étendue de la créativité d’un humain.
L’utilité de l’IA est à relativiser
Dans le cadre de notre protocole de test et dans le contexte de capacités des IA à l’heure où nous écrivons ces lignes, il est illusoire de penser qu’une IA serait capable de déterminer toute seule le degré de pertinence de tous les propos tenus lors d’une interview. Chercher à lui faire écrire un article pertinent passe donc obligatoirement par une étape préalable de dégraissage de la retranscription de l’interview.
En pratique, dégraisser la retranscription d’une interview de tous les éléments inutiles à l’article final, sans toutefois éliminer des éléments de contexte qui n’ont pas lieu d’être dans l’article final, mais guident l’IA vers de meilleurs résultats, nécessite une réécriture de la retranscription. Cette réécriture coûte du temps humain, au profit du travail de l’IA, mais pas au profit du travail du journaliste.
C’est un point très important : à partir de ce moment-là, l’IA cesse de faire gagner du temps à son utilisateur. En l’état, utiliser l’IA revient à déplacer le temps de travail d’une tâche existante (rédiger le premier jet d’un article) vers une tâche nouvelle (préparer les données avant de les livrer à une IA).
Second point, la description en 1 500 tokens du schéma à suivre pour écrire un article ne fonctionne que pour un type d’article en particulier. C’est-à-dire qu’il faut rédiger un schéma pour les articles concernant une startup qui propose une innovation, un tout autre schéma pour ceux concernant un fournisseur qui lancent une nouvelle version de son produit, encore un autre schéma pour un acteur qui expose un nouvel axe stratégique, etc. Plus les cas d’usage sont nombreux, plus le travail d’ingénierie en amont sera long.
Pire : à date, nos expérimentations ne concernent que la rédaction d’articles à partir d’une seule interview, le plus souvent lors de conférences de presse, c’est-à-dire dans un cadre où l’interviewé a déjà lui-même structuré son propos avant de le livrer. Dit autrement, après plus d’un semestre d’expérimentations, nous n’en sommes toujours qu’au cas d’usage le plus simple. Nous n’avons pas encore pu investir du temps dans des scénarios plus complexes, qui sont pourtant le lot quotidien de la production du MagIT, à commencer par des articles rédigés d’après plusieurs interviews.
Le paradoxe est donc le suivant : pour que l’IA serve à soulager un utilisateur d’une partie de son travail, il faut que cet utilisateur travaille plus. En revanche, sur ces sujets, l’IA sur machine personnelle joue à jeu égal avec l’IA payante en ligne.
Pour approfondir sur IA appliquée, GenAI, IA infusée