JiSign - Fotolia

Intel contre-attaque AMD avec une meilleure capacité mémoire

Le fondeur présente sa seconde génération de Xeon SP. Pour pallier son retard prévu sur les performances des Epyc Rome d’AMD, Intel joue la carte des avantages opérationnels avec les Optane DC PMEM.

Intel contre-attaque. Le fondeur dévoile ces jours-ci la seconde génération de ses processeurs Xeon Scalable Platform, lesquels sont censés mieux rivaliser avec les derniers Epyc d’AMD. Sous la même nomenclature illisible que précédemment, 45 modèles de processeurs « Cascade Lake » toujours gravés en 14nm succèdent aux déjà très nombreux « SkyLake ». Ils apportent bien évidemment un nombre toujours plus élevé de cœurs : le dernier Xeon 9282 en a 56 (112 threads), soit presque autant que les 64 du prochain Epyc « Rome » qui devrait équiper les serveurs d’ici à cet été.  

Ils bénéficient surtout de nombreuses optimisations. La plus remarquable est l’arrivée d’un contrôleur mémoire DDR-T qui supporte de nouvelles barrettes DIMM Optane DC Persistent Memory (dites DC PMEM). Basées sur la technologie Flash 3D XPoint d’Intel et Micron, ces barrettes sont deux fois plus capacitives et coûtent deux fois moins cher que de la DRAM habituelle.

Face à AMD qui est parvenu à lancer des processeurs plus puissants et moins chers que ceux d’Intel, en les faisant graver avec une finesse record de 7nm par les usines ultra rentables de TSMC, ces barrettes - qui ne fonctionnent qu’avec les derniers Xeon - sont l’essentiel de la réponse d’Intel pour rester compétitif.

Rester dans la course avec deux fois plus de mémoire, deux fois moins chère

Selon Intel, pour un même coût de 33.000 dollars, il est possible soit d’installer 768 Go de DRAM dans un serveur afin d’exécuter 22 machines virtuelles, soit de faire cohabiter 192 Go de DRAM avec 1 To de mémoire Optane DC PMEM pour exécuter 30 VMs. Selon ce calcul, le serveur équipé de barrettes Optane DC PMEM est, au final, un tiers meilleur que ce soit sur la quantité de RAM, sur le nombre de VMs ou sur le prix par VM. Sans PMEM, chaque VM revient à 1588 dollars, avec, elle ne coûte plus 1108 dollars.

Autre exemple fourni par le fondeur, celui des bases de données In-Memory en général et de SAP Hana en particulier. Intel calcule qu’il faudrait dépenser 67.000 $ pour obtenir 6 To à partir de 48 barrettes de DRAM 128 Go sur un serveur quadri-socket. En revanche, si la machine est équipée de seulement 24 barrettes de DRAM et 24 autres de 256 Go en Optane DC PMEM, Hana peut dès lors profiter d’un espace de 9 To pour un coût de seulement 40.000 dollars.

Les barrettes Optane DC PMEM ne valent pas des DRAM. Leurs accès sont jusqu’à dix fois plus lents (de 180 à un peu moins de 1000 nanosecondes de latence contre 70 d’ordinaire). Néanmoins, elles restent tout de même près de 100 fois plus rapides que les meilleurs modules NVMe, 1000 fois plus véloce que les SSD. Surtout, Intel prévoit de mixer DRAM et DC PMEM, de sorte que les premières barrettes servent de cache aux secondes et que, avec un débit mesuré de plus de 8 Go/s, la majorité des applications ne constate aucun ralentissement.

« Au final, en mettant les données d’Hana les plus chaudes dans le cache, les performances sont exactement les mêmes entre une machine équipée uniquement de DRAM et une autre pourvue d’Optane DC MP », jure Mohamed Arafa, ingénieur en chef de la branche Datacenter chez Intel.

L’avantage controversé de ne pas recharger une base Hana à chaque reboot

« Concernant Hana, le très gros avantage théorique des barrettes PMEM est que ce sont des mémoires persistantes et que, en tant que telles, elles fonctionnent dans un mode où les données qu’elles contiennent ne sont pas nécessairement effacées lors d’un redémarrage », commente pour sa part Thomas Di Giacomo, le CTO de Suse, qui édite le Linux sur lequel fonctionne Hana.

« Cela signifie qu’il n’est plus nécessaire de recharger en mémoire des To entiers de données à chaque fois que l’on fait une mise à jour du serveur. Pour vous donner un ordre d’idée, ce rechargement des données peut immobiliser un serveur pendant plusieurs heures », précise-t-il.

« Cette technologie a un inconvénient : pour qu’elle fonctionne, encore faut-il savoir quelles données garder en mémoire et quelles autres recharger. »
Thomas Di GiacomoCTO, Suse

Selon des tests menés par Intel, il faut 20 minutes à un serveur classique pour recharger 1,3 To de données en RAM et 90 secondes à un serveur équipé de PMEM pour s’apercevoir qu’elles y sont déjà. Précisons que dans les deux cas, l’OS met 12 minutes à démarrer, selon la démonstration d’Intel.

« Cette technologie a néanmoins un inconvénient : pour qu’elle fonctionne, encore faut-il savoir quelles données garder en mémoire et quelles autres recharger parce que, pendant le redémarrage, un autre serveur les aura déjà mises à jour. A date, nous sommes incapables de la faire », ajoute Thomas Di Giacomo.

DL Boost, le dispositif qui permet de spécialiser les Xeon dans un domaine

Parmi les autres innovations, l’augmentation du nombre de contrôleurs mémoire permet à certains nouveaux modèles de Xeon de grimper jusqu’à 4,5 To de DRAM par socket, contre 1,5 To maximum auparavant et contre 4 To sur les prochains Epyc. Les Xeon qui disposent de cette capacité ont la lettre « L » à la fin de leur nom. Les autres, qui ne supportent que 2 To de DRAM par socket, sont des modèles « M ».

Les Xeon dont le nom se termine par « Y » contiennent un dispositif Speed Select qui améliore l’échelonnage des fréquences entre les cœurs et les caches. « Avec cette technologie, un serveur devient plus versatile, il est possible de l’optimiser pour exécuter à la fois des VM d’applications métier Java, des VM de calcul et des VM de traitement des flux réseau », commente Ian Steiner, l’architecte en chef de cette nouvelle génération Cascade Lake.

Tous les nouveaux Xeon disposent par ailleurs d’un circuit RDT (Resource Director Technology) qui présente l’originalité d’attribuer à chaque thread des plafonds de bande passante vers la mémoire. Également, leur circuit vectoriel AVX-512 dispose à présent d’instructions VNNI capables d’exécuter certaines fonctions matricielles en un cycle au lieu de trois. A cela s’ajoute un microprogramme DL Boost qui préconfigure en usine les dispositifs précédents dans l’objectif de spécialiser certains Xeon pour tel ou tel type d’algorithmes.

C’est ainsi qu’Intel propose à présent des Xeon « N » plus rapides de 25 à 76% sur le routage des paquets réseau (le fondeur croit au succès grandissant des appliances réseau virtuelles NFV), des Xeon « S », aux performances démultipliées sur l’analytique et le machine learning (l’algorithme Caffe fonctionnerait ici jusqu’à 14 fois plus vite à fréquence égale), des Xeon « V » qui réduisent la latence de 20% entre les machines virtuelles, ou encore des Xeon « T » qui consomment moins d’électricité.

Xeon 9200, un nouveau haut de gamme à 56 cœurs

La grande nouveauté est l’arrivée d’une série Xeon 9200 dans la gamme Platinum.

Dans la nomenclature Intel, les séries Platinum 8200 (serveurs 2 à 8 sockets), Gold 6200/5200 (2 à 4 sockets), Silver 4200 (idem, mais avec moins de cache) et Bronze 3204 (1 à 2 sockets), offrent peu ou prou le même nombre de cœurs et de cache que les modèles correspondants de la génération Skylake précédente.

La grande nouveauté est l’arrivée d’une série Xeon 9200 dans la gamme Platinum. Il s’agit en en fait d’une puce qui contient deux circuits (« dies ») au lieu d’un. Quelques subtilités de fréquences font que les quatre variantes de Xeon 9200 ne correspondent pas tout à fait à deux Xeon 8200 simplement collés ensemble (le 8200 grimpe à 4 GHz, le 9200 ne dépasse pas 3,8).
On retiendra surtout que cette puce permet de bénéficier de 32, 48 et même 56 cœurs plus 24 barrettes DIM par socket (6 canaux mémoire par die, avec deux barrette par canal), ce qui devrait se traduire par des serveurs totalisant 448 cœurs et 192 barrettes de mémoire. L’avenir dira comment les constructeurs auront réussi à implémenter de tels designs.

Notons à ce titre que le Xeon 9200 a un brochage BGA qui diffère du socket LGA des autres Xeon et que son indice de dissipation thermique serait compris entre 250 et 400 Watts par socket, contre 70 à 205 Watts sur les autres modèles.

En termes de performances, Intel se targue de multiplier des records, benchmarks réalisés par ses propres compilateurs à l’appui. Pour faire court, tous les résultats montrent qu’il est partout deux fois plus rapide que l’ancien haut de gamme, le Xeon 8180 qui n’avait qu’un die de 28 cœurs. Un serveur avec deux Xeon 9200 à 56 cœurs avec tous ses canaux DIMM occupés peut lire ou écrire 407 Go de données par seconde en RAM, soit 3,6 Go/s et par cœur.

Curieusement, les Xeon 9200 – tout comme les 4200 – présentent néanmoins la particularité de ne pas supporter les barrettes Optane DC PMEM. Ces modèles étant privés de la plus importante caractéristique qu’Intel ait trouvée pour rivaliser avec les Epyc, il faudra donc attendre les premières implémentations de serveurs pour comprendre où se situe réellement leur efficacité opérationnelle.

Pour approfondir sur Processeurs et composants

Close