
Elnur - stock.adobe.com
« Illusion de pensée » : l’article d’Apple sur l’IA est probablement intéressé, mais valide
Bien que le fabricant de l’iPhone semble essayer de détourner l’attention du fait qu’il est à la traîne dans le domaine des LLMs, le point qu’il soulève semble tout de même juste.
L’article de recherche d’Apple remettant en cause la précision des modèles de raisonnement reçoit un accueil mitigé alors que le marché de l’IA continue d’investir massivement dans ces modèles.
Le géant de la technologie grand public Apple a publié le 12 juin un nouveau document de recherche dans lequel il affirme que si de nombreux modèles de raisonnement affichent des performances améliorées selon des critères de référence, le marché de l’IA ne tient pas compte de certaines lacunes.
Pour ce faire, les « LRM » (Language Reasoning Model) Claude 3.7 Sonnet, DeepSeek R1 et o3 mini ont été testé non pas sur des évaluations génériques – considérées comme vecteurs de contamination (les benchmarks sont plus ou moins ouvertement utilisés pour entraîner les LLM) – mais sur des puzzles. Ces puzzles sont bien connus des mathématiciens et chercheurs en IA : la tour de Hanoï, la traversée de la rivière, le problème des sauts de dames (inspiré du jeu de dames) et le monde des blocs.
Selon les auteurs de l’article, les modèles réussissent d’abord à résoudre des problèmes simples, mais leur niveau de raisonnement diminue au bout d’un certain temps. Apple affirme également que ce qui semble être de la pensée n’est que de la correspondance de modèles, ce qui crée une « illusion de pensée ».
« Notre analyse détaillée des traces de raisonnement a davantage mis en évidence des modèles de raisonnement dépendants de la complexité, allant d’une “surréflexion” inefficace sur des problèmes plus simples à un échec complet sur des problèmes complexes », écrivent les chercheurs dans leur conclusion. « Ces observations remettent en question les hypothèses dominantes concernant les capacités des LRM et suggèrent que les approches actuelles pourraient se heurter à des obstacles fondamentaux pour un raisonnement généralisable ».
Ils font également état de leur « surprise » quant à l’incapacité des modèles de raisonnement à exécuter des calculs exacts. « […] Par exemple, lorsque nous avons fourni l’algorithme de solution pour la tour de Hanoï aux modèles, leur performance sur ce puzzle ne s’est pas améliorée. De plus, l’étude du premier mouvement d’échec des modèles a révélé des comportements surprenants. Par exemple, ils pouvaient effectuer jusqu’à 100 mouvements corrects dans la tour de Hanoï, mais ne parvenaient pas à fournir plus de 5 mouvements corrects dans le puzzle de la traversée de la rivière ».
Apple a publié cet article la même semaine que sa Worldwide Developers Conference. Événement au cours duquel il a présenté le Foundation Models Framework for Developers. Cette nouvelle API permet aux développeurs tiers d’intégrer les modèles d’Apple dans leurs applications et de s’appuyer sur Apple Intelligence. Malgré cette initiative, Apple continue de faire l’objet de critiques concernant les performances inférieures de ses modèles d’IA par rapport aux modèles d’OpenAI, de Meta et d’autres.
Les motivations contradictoires d’Apple
Par conséquent, certains considèrent que le document de recherche est intéressé et qu’il s’agit d’un moyen pour Apple de dissimuler son retard en matière d’IA générative (GenAI). Toutefois, d’autres experts en IA affirment que les deux affirmations peuvent être simultanément valables.
« La motivation de cette réflexion est purement dans l’intérêt d’Apple », tranche David Nicholson, conseiller en chef du Futurum Group. « La société ne devrait-elle pas chercher à rendre Siri plus intelligent ? Ils devraient se concentrer sur cela au lieu de jeter la pierre à tout le monde ».
Pour autant, l’analyste le reconnaît : « la discussion ouverte par Apple n’est pas dénuée de fondement ».
Les investissements dans l’IA continuent de croître. Meta, Amazon, Alphabet (la société mère de Google) et Microsoft devraient investir des milliards de dollars dans la technologie de l’IA en 2025. Toutefois, le retour sur investissement de cette technologie très populaire n’a pas encore été prouvé.
« Il est facile pour nous, en tant qu’humains, de nous laisser berner par un grand modèle de langage, car lorsqu’ils enchaînent statistiquement des mots, on a l’impression de parler à un autre être humain », poursuit David Nicholson. « C’est de la pensée, mais ce n’en est pas ».
Malgré tout, « c’est un peu comme si Apple s’achetait du temps dans le domaine des relations publiques », estime-t-il.
Entre-temps, le lundi 16 juin, le vendeur chinois Alibaba a révélé que ses nouveaux modèles Qwen 3 fonctionneraient sur les appareils Apple, notamment l’iPhone, l’iPad, le MacBook et le Mac.
Tenir compte de l’avertissement
Michael G. Bennett, vice-chancelier associé pour la data science et la stratégie de l’IA à l’université de l’Illinois à Chicago, estime compréhensible que la recherche d’Apple ait suscité des réactions négatives. Elle remet en question certaines des croyances largement répandues au sujet des modèles de raisonnement.
Toutefois, le marché de l’IA ne devrait pas rejeter le rapport de recherche d’Apple.
« Je n’adhère pas entièrement à ce document, mais je pense que lorsqu’un acteur majeur du secteur publie un article comme celui-ci, il vaut la peine de se souvenir de ce qu’il dit », prévient-il. D’autant que les chercheurs de la marque à la pomme pensent que leurs remarques peuvent diriger les futures recherches en matière de raisonnement.
Michael G. Bennett ajoute que ne pas prêter attention pourrait avoir de graves conséquences. D’autant plus que les fournisseurs promettent que les modèles de raisonnement pourraient résoudre des problèmes insolubles pour les pauvres cerveaux humains.
« L’ambition et l’espoir sont justifiés, mais si ces systèmes ne peuvent même pas accomplir des tâches modérément complexes, il vaut mieux le comprendre relativement tôt », poursuit-il.
D’ailleurs, Apple n’est pas le seul à souligner que les modèles de raisonnement et les LLM fournissent des performances sous-optimales. Voire ne respectent pas la confidentialité des données. Salesforce Research a récemment prouvé – avec les équipes de Microsoft – que les agents LLM peinent à suivre les conversations multitours et à appliquer des tâches qu’on leur demande d’exécuter dans le domaine du CRM. Parmi les modèles testés figurent Gemini 2.5 Pro et OpenAI o1, deux modèles de raisonnement.