[TEST] Carte Graphique MSI RTX 4090 SUPRIM X | modding.fr

Architecture Ada Lovelace :

Le GPU AD102

Après l’architecture Ampere présente sur la série RTX 30, Nvidia passe sur l’architecture Ada Lovelace.
Ce nom est en hommage à la mathématicienne Ada Lovelace (1815-1852) considérée comme étant la première personne à avoir conçu un programme informatique sur l’ancêtre de l’ordinateur : la machine analytique de Charles Babbage.

L’architecture Ada Lovelace est la troisième génération des cartes Nvidia associées à la technologie du Ray Tracing. C’est donc en toute logique que les principales évolutions tournent autour de cette technologie visant à améliorer les graphismes dans les jeux en augmentant le réalisme.
Or le Ray Tracing consomme pas mal de ressources et la chute de FPS s’avère conséquente.
Cette nouvelle gamme de RTX dispose de Core RT de 3ème génération, de Core Tensor de 4ème génération ainsi que d’une unité Optical Flow Accelerator. Ce dernier composant est spécifique à cette nouvelle gamme et participe à la génération de nouvelles images que nous verrons dans l’analyse du DLSS3.

Alors que le GPU GA102 qui équipe les RTX3080 et RTX 3090 présente une surface de 628 mm², le GPU AD102 est légèrement plus petit avec tout de même 608 mm².
Pour autant, ce nouveau GPU embarque 76.3 milliards de transistors contre les 28.3 milliards du GPU GA102. Cette forte augmentation est liée à l’amélioration du processus de gravure qui passe de 8nm à 4 nm.
Ces nombreux transistors sont repartis dans 144 SM (Streaming Multiprocessor).
La structuration des composants essentiels demeure identique aux générations précédentes.
AD102 intègre 12 clusters de traitement graphique (GPC), soit 5 de plus que sur le GA102. Chacun de ces GPC partage un Raster Engine (composants de traitement de la géométrie) et deux partitions ROP (Render Output Unit) contenant huit unités ROP, soit 16 au total.
Le GPC dispose de six clusters de traitement de texture (TPC), les principaux composants de traitement des chiffres. Ces derniers embarquent deux unités SM et une unité Polymorph Engine.

Chaque SM contient 128 cœurs CUDA répartis sur quatre partitions.
La moitié de ces cœurs CUDA sont en FP32 pur, tandis que l’autre moitié est capable de FP32 ou INT32. Toutefois, le SM conserve la capacité de traitement mathématique simultané FP32 + INT32.
On trouve également un Core RT de 3ème génération, quatre Core Tensor de 4ème générations, une mémoire cache et quatre TMU.
Si l’on récapitule l’ensemble des composants d’un GPU AD102 (complet), nous avons 12 SM par GPC soit 1 536 cœurs CUDA, 48 Core Tensor et 12 Core RT .
Douze GPC totalisent :

18 432 cœurs CUDA
576 Core Tensor
144 Core RT.

NVIDIA a amputé la gamme RTX 4090 en désactivant l’un des douze GPC ainsi que deux autres TPC positionnés sur deux GPC (zones en rouge sur le schéma du GPU AD102 ci-dessus).
La RTX 4090 totalise :

16 384 cœurs CUDA
512 Core Tensor
128 Core RT.

La RTX 4090 dispose de 72 Mo de cache L2 activé (sur 96 Mo physiquement présents sur le processeur).

Core RT 3ème génération

La notion de Ray Tracing est apparue avec l’architecture Turing (RTX 20) qui inclut des unités dédiées à l’accélération matérielle de cette technologie ainsi qu’à l’élaboration de l’algorithme BHV (Bounding Volume Hierarchy).
Le Core RT de 3ème génération accélère les calculs mathématiques les plus intensifs des intersections des rayons avec les triangles d’un coefficient de deux par rapport à la génération présente sur la précédente architecture Ampere.
Ce nouveau Core RT inclut dorénavant un moteur Opacity Micromap (OMM) et un moteur Displaced Micro-Mesh (DMM).

Le premier cité permet un traçage de rayons beaucoup plus rapide des textures Alpha souvent utilisées pour gérer les données de transparence du feuillage, des particules (fumée, vapeur) et des clôtures.
Il améliore les performances de rastérisation.
Dans le cas d’une feuille présente dans une scène 3D, celle-ci est considérée comme un objet de faible priorité et est traitée en tant que rectangle avec des textures de transparence (Alpha) pour créer la forme finale de la feuille.
Les Core RT ont du mal à croiser les rayons avec un tel objet, car la feuille n’a pas vraiment la forme dans laquelle elle apparait vu que ce n’est en réalité qu’un rectangle associé à des textures qui donnent l’illusion de la forme finale.
Les Core RT de la seconde génération devaient avoir plusieurs interactions avec l’étape de rendues pour déterminer la forme finale de la feuille, car ils ne pouvaient pas tester les textures de transparence par eux-mêmes.
Le moteur OMM corrige cela en créant un micromaillage de textures rectangulaires sur le rectangle originel qui s’aligne avec les parties de la texture exemptes de données de transparence Alpha. Cela facilite la tâche des Core RT qui identifie plus aisément la forme exacte de l’objet à traiter (la feuille dans notre exemple) et calcule correctement les intersections des traçages de rayon.

Le moteur DMM offre un temps de construction de l’algorithme BVH jusqu’à 10 fois plus rapide et avec jusqu’à 20 fois moins d’espace de stockage, permettant le traçage de rayons en temps réel de scènes géométriquement complexes.
C’est une méthode qui réduit la complexité de la structure de données de la hiérarchie des volumes englobants (BVH). Auparavant, ce BVH devait capturer même les plus petits détails pour déterminer correctement les points d’intersection des rayons avec les triangles.

Cette nouvelle gamme de RTX fait donc la part belle au traitement du Ray Tracing et l’intégration de la technique SER (Shader Execution Reordering) permet d’avoir un troisième axe d’accélération de traitement de ces rayons.
Le SER améliore la gestion du Ray Tracing en réorganisant l’ordre d’exécution du calcul des rayons secondaires divergents au sein du shader.
Selon Nvidia, le SER augmente les performances d’un facteur 2.

Core Tensor 4ème génération / DLSS 3

Après le DLSS 2 (Deep Learning Super Sampling) qui a permis de récupérer des FPS lorsque nous activions le Ray Tracing, Nvidia nous propose le DLSS dans une version 3 avec sa nouvelle génération de GPU Ada Lovelace.
Cette option engendrerait un doublement du nombre de FPS sans perte de qualité au niveau de l’image. C’est là qu’intervient la notion d’IA Frame-Génération.
Le DLSS 3 possède toutes les fonctionnalités de DLSS 2 avec la « Super-Résolution » basé sur l’IA des Core Tensor (mise à l’échelle d’une image de résolution inférieure à une résolution native avec une perte de qualité minimale).

Nvidia rajoute le fait que ce DLSS 3 peut générer des images entières simplement en utilisant l’IA.
Les images insérées sont issues de l’analyse des trames adjacentes.

Chaque image créée avec le DLSS 3 est donc générée par l’IA des Core Tensor, sans pour autant être la réplique de l’image précédente.
Cela n’est possible que sur l’architecture GPU Ada Lovelace. En effet, comme nous l’avons mentionné plus haut, cette architecture intègre une unité Optical Flow Accelerator (OFA).

Ce composant aide à prédire à quoi pourrait ressembler la prochaine image, en estimant la direction et l’amplitude du mouvement apparent des pixels.

Le hic avec cette option DLSS 3 est que la création d’images intermédiaires a tendance à augmenter la latence.
Ce qui fait que l’activation du DLSS 3 va automatiquement s’accompagner de l’activation du Nvidia Reflex qui vient justement réduire cette latence.

L’architecture Ada Lovelace évolue aussi au niveau de la partie encodage vidéo avec la présence de deux encodeurs NVENC de 8ème génération qui peuvent travailler en simultané et qui prennent en charge le codec AV1.
Ce codec tend à améliorer la qualité d’image sans augmenter la bande passante, de quoi ravir les streamers.

Nous ne sommes pas rentrés dans les détails techniques de chacune de ces fonctionnalités.
Toutefois, si vous voulez en savoir nettement plus, et ce dans les moindres détails, nous vous invitons à consulter les explications élaborées par nos confrères : Le comptoir du hardware.