Tierney - stock.adobe.com
Optimisation matérielle et frugalité : les piliers des nouveaux modèles d'Apple
L'architecture des modèles de fondation d'Apple repose sur une segmentation hybride entre exécution locale et cloud privé, optimisée par des techniques de frugalité avancées.
Apple vient de lever le voile sur la troisième génération de ses modèles de fondation (AFM 3). Celle-ci se structure autour de cinq modèles distincts, conçus pour équilibrer les capacités de raisonnement et les contraintes d'infrastructure. Cette famille se divise en deux catégories : les modèles destiné à une exécution locale et les modèles serveurs.
Côté local, Apple déploie AFM 3 Core, un modèle dense de 3 milliards de paramètres, et AFM 3 Core Advanced. Ce dernier est le modèle local le plus puissant, doté d'une architecture nativement multimodale permettant des voix expressives et une dictée de haute précision. Côté serveur, l'écosystème s'appuie sur AFM 3 Cloud, optimisé pour la vitesse et l'efficacité, ADM 3 Cloud (Image) dédié à la génération et à l'édition de photos, et AFM 3 Cloud Pro, conçu pour les tâches complexes telles que l'utilisation d'outils agentiques et le raisonnement complexe.
L'architecture hybride et le Private Cloud Compute
Apple articule la confidentialité et la puissance de calcul via le Private Cloud Compute. Ce système garantit que les données des utilisateurs ne sont ni stockées ni partagées, même avec Apple. Pour les modèles serveurs, cette infrastructure permet de traiter des requêtes complexes tout en maintenant des garanties de sécurité strictes.
Une évolution notable concerne AFM 3 Cloud Pro. Pour répondre aux exigences de ce modèle, Apple a collaboré avec Google et NVIDIA afin d'étendre le Private Cloud Compute aux GPU NVIDIA dans le cloud Google. Cette extension permet de supporter les cas d'usage les plus gourmands tout en maintenant le même cadre de protection de la vie privée.
Optimisation matérielle : frugalité et gestion de la mémoire
Le défi technique majeur pour les modèles locaux réside dans la gestion de la mémoire vive DRAM. Les modèles de langage traditionnels nécessitent que tous les poids résident en mémoire active, ce qui limite leur passage à l'échelle sur du matériel grand public. Pour lever ce verrou, AFM 3 Core Advanced introduit une architecture à activation parcellaire basée sur l'Instruction-Following Pruning (IFP).
Sous cette architecture, le modèle complet est stocké dans la mémoire flash (NAND). Comme la bande passante NAND-vers-DRAM est trop lente pour un échange de poids par jeton (token), AFM 3 Core Advanced prend des décisions de routage par prompt. Un bloc dense léger sélectionne un ensemble fixe d'experts lors du traitement initial, tandis que des experts partagés toujours actifs sont complétés par des experts routés chargés dynamiquement dans la DRAM uniquement si nécessaire. Cette approche permet une élasticité d'inférence : le modèle ajuste le nombre de paramètres actifs en fonction de la difficulté de la tâche, dépassant les limites physiques de la mémoire DRAM tout en minimisant la latence.
Pour certains spécialistes du domaine, c'est là « l'innovation la plus marquante d'Apple ». Elle souligne en tout cas un investissement en profondeur dans le développement de l'IA locale et son accessibilité.
Méthodologies d'entraînement et de compression
Le pipeline de développement d'Apple repose sur un pré-entraînement massif sur des accélérateurs TPU de dernière génération. Tous les modèles partagent une base commune avant d'être spécialisés pour leurs architectures respectives, intégrant des capacités multimodales telles que la compréhension d'images et le raisonnement sur contextes longs.
Le processus de post-entraînement combine un ajustement supervisé et un apprentissage par renforcement multi-étapes. Pour garantir l'exécution sur les différents matériels cibles, Apple utilise la technique de Quantization Aware Training. Cette méthode permet de compresser considérablement les modèles tout en préservant une haute précision, que ce soit pour le déploiement sur Apple Silicon ou sur les GPU Nvidia.
Le développeurs ayant installé la première version beta de macOS 27 peuvent déjà tester les modèles locaux même s'ils sont encore sur la liste d'attente pour essayer le nouveau Siri, en ligne de commande ou via l'application Raccourcis.
