Intel Architecture Day 2021 : Ponte Vecchio, un GPU « monstre » de 100 milliards de transistors

Par Nerces, Spécialiste PC & Gaming.

Publié le 22 août 2021 à 14h53

Plusieurs processus de gravure, et notamment le node 5 nm de TSMC, seront mis à contribution.

Organisé il y a quelques jours, l'Intel Architecture Day 2021 aura aussi été l'occasion pour l'Américain de poser des jalons dans la course aux GPU à destination des data centers. Un domaine dans lequel Intel accuse un certain retard par rapport à ses concurrents.

Des Xe-core « comme » sur Alchemist

Après avoir longuement mis l'accent sur les GPU Alchemist et les produits « grand public », Intel a logiquement profité de son Architecture Day 2021 pour enfoncer le clou avec Ponte Vecchio. Le GPU n'est pas réellement une nouveauté dans la mesure où il a déjà été évoqué à maintes reprises, mais Intel souhaitait en détailler l'architecture.

Intel cherche évidemment à capitaliser sur les travaux qu'il a menés pour les GPU Alchemist et Ponte Vecchio se repose donc lui aussi sur les Xe-core que nous avions précédemment évoqués. Il n'est question « que » de 8 moteurs vectoriels et 8 moteurs matriciels par core, mais les registres évoluent avec, respectivement, 512 bits et 4096 bits.

Nous apprenons aussi que la taille du cache L1 est ici de 512 Ko et Intel évoque la possibilité – pour un unique Xe-core – de réaliser 256 opérations FP64 / FP32 par cycle. Comme ces chiffres ne parlent pas forcément à tout le monde, Intel enchaîne rapidement sur le nombre de Xe-core intégrés à Ponte Vecchio.

Un prototype à 45 TFLOPs

Souvenez-vous, Alchemist rassemble les Xe-core par groupe de quatre afin de créer un render slice et, lors de sa présentation d'Alchemist, Intel a évoqué un GPU doté de huit render slices. Attention, avec Ponte Vecchio, les choses prennent une certaine « hauteur ».

Le Xe HPC Slice se compose effectivement de 16 Xe-core et histoire de faire bonne mesure, on regroupe ces slices par 4 afin d'obtenir ce qu'Intel nomme un stack auquel il ajoute du cache L2, quatre contrôleurs HBM2E et un media engine. Mais pour aboutir à ce qu'est véritablement Ponte Vecchio – et peut-on encore parler de GPU « unique » – Intel assemble 2 de ces stacks, même si cette configuration semble malléable.

Au cours de sa présentation, Intel a indiqué qu'une puce Ponte Vecchio dans sa version A0 – prototype fonctionnel – était déjà capable de délivrer 45 TFLOPs avant de préciser que le supercalculateur Aurora, l'un des premiers conçus autour de Ponte Vecchio, intégrera 6 de ces GPU associés à deux CPU Sapphire Rapids par lame.

Source : Conférence Intel Architecture Day 2021

Par Nerces

Spécialiste PC & Gaming

Intel

Carte graphique

Actualités High-Tech

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (10)

MattS32

Ça fait donc grosso modo l’équivalent d’un peu plus de deux nVidia A100. Reste à voir la consommation pour savoir si c’est compétitif ou pas.

mamide

45 TFLOPS FP32 ça c’est du lourd quand on sait que le GPU GA100 ne délivre que 19 TFLOPS.

espérons que le variant gaming soit aussi puissant !

pecore

Présentation, prototype, phrases au conditionnel… Intel a t’il aussi du concret ou juste des mots à nous fournir.

neaufles

Du beau vent, mais du vent quand même.
Obligé de sous traiter la gravure, car incapable de le faire en interne.

MattS32

Non, clairement pas. Comme le dit l’article, le GPU gaming le plus puissant aura 8 render slices de 4 Xe-Core HPG, soit 32 Xe-Core HPG au total.

Là il y a 2 stacks (si j’en crois la vidéo, c’est 2 stacks dans un premier temps, pas 4, et ça colle d’ailleurs bien avec la photo du package, où on voit que tout est en double, pas en quadruple) de 4 HPC slices de 16 Xe-Core HPC. Soit 128 Xe-Core HPC au total. 4 fois plus.

Après, faut voir aussi comment la puce est « optimisée ». Parce que côté nVidia, les A100 sont optimisées pour la double précision (la puissance n’est divisée que par deux en double précision), alors que les GeForce sont optimisées pour la simple précision (à partir de la 3070 Ti elles sont plus performantes que l’A100 en simple précision, mais les perfs sont divisées par 64 en double précision…).

Intel est probablement parti dans une voie encore plus extrême, il semblerait que les performances soient identiques en FP64 et FP32 sur Ponte Vecchio (voir à 3:10 dans la vidéo, 256 ops/cycle en FP32 et FP64, 512 en FP16).

Sur Alchemist, on peut s’attendre à des perfs doubles en FP32 par Xe-Core à fréquence égale par rapport à Ponte Vecchio : les Xe-Core HPC ont 8 vector engines 512 bits, vs 16 vector engines 256 bits pour les Xe-Core HPG. Et sans doute par contre des performances bien moindres en FP64.

Du coup à fréquence égale, en FP32, Alchemist devrait avoir la moitié de la puissance de Ponte Vecchio, soit environ 22 TFlops. En pratique, probablement encore un peu plus parce que vue la taille de Ponte Vecchio y a des chances qu’il monte moins haut en fréquence que Alchemist.

Et du coup niveau performances brutes ça mettrait Alchemist dans les mêmes eaux que les 3080/3080 Ti.

Lerian

Pipo, pipo, pipo …
j’attends de voir !

Nerces

Tout à fait, pour l’heure il n’est question que de 2 stacks, mais en Q&A on avait l’impression qu’Intel se gardait la possibilité de 4 stacks. Je vais simplifier l’actu pour éviter d’aller trop dans les spéculations.

mamide

Oula tu t’emballes un peu trop là … les leaks parlent de performances au mieux égales à une RTX 3070/Ti.

pecore

Je rejoins @neaufles sur le point de la gravure. Être fondeur de puces et pas foutu de produire ses propres GPU cela n’envoie pas un très bon message ni aux clients ni aux investisseurs.

Lepered

Comme AMD en fait… Les sociétés doivent faire des choix, tout le monde n’a pas 100 milliards de $ à mettre dans des usines derniers cris.