Plusieurs processus de gravure, et notamment le node 5 nm de TSMC, seront mis à contribution.
Organisé il y a quelques jours, l'Intel Architecture Day 2021 aura aussi été l'occasion pour l'Américain de poser des jalons dans la course aux GPU à destination des data centers. Un domaine dans lequel Intel accuse un certain retard par rapport à ses concurrents.
Des Xe-core « comme » sur Alchemist
Après avoir longuement mis l'accent sur les GPU Alchemist et les produits « grand public », Intel a logiquement profité de son Architecture Day 2021 pour enfoncer le clou avec Ponte Vecchio. Le GPU n'est pas réellement une nouveauté dans la mesure où il a déjà été évoqué à maintes reprises, mais Intel souhaitait en détailler l'architecture.
Intel cherche évidemment à capitaliser sur les travaux qu'il a menés pour les GPU Alchemist et Ponte Vecchio se repose donc lui aussi sur les Xe-core que nous avions précédemment évoqués. Il n'est question « que » de 8 moteurs vectoriels et 8 moteurs matriciels par core, mais les registres évoluent avec, respectivement, 512 bits et 4096 bits.
Nous apprenons aussi que la taille du cache L1 est ici de 512 Ko et Intel évoque la possibilité – pour un unique Xe-core – de réaliser 256 opérations FP64 / FP32 par cycle. Comme ces chiffres ne parlent pas forcément à tout le monde, Intel enchaîne rapidement sur le nombre de Xe-core intégrés à Ponte Vecchio.
Un prototype à 45 TFLOPs
Souvenez-vous, Alchemist rassemble les Xe-core par groupe de quatre afin de créer un render slice et, lors de sa présentation d'Alchemist, Intel a évoqué un GPU doté de huit render slices. Attention, avec Ponte Vecchio, les choses prennent une certaine « hauteur ».
Le Xe HPC Slice se compose effectivement de 16 Xe-core et histoire de faire bonne mesure, on regroupe ces slices par 4 afin d'obtenir ce qu'Intel nomme un stack auquel il ajoute du cache L2, quatre contrôleurs HBM2E et un media engine. Mais pour aboutir à ce qu'est véritablement Ponte Vecchio – et peut-on encore parler de GPU « unique » – Intel assemble 2 de ces stacks, même si cette configuration semble malléable.
Au cours de sa présentation, Intel a indiqué qu'une puce Ponte Vecchio dans sa version A0 – prototype fonctionnel – était déjà capable de délivrer 45 TFLOPs avant de préciser que le supercalculateur Aurora, l'un des premiers conçus autour de Ponte Vecchio, intégrera 6 de ces GPU associés à deux CPU Sapphire Rapids par lame.
Source : Conférence Intel Architecture Day 2021