NVIDIA traverse une période difficile. Alors que la marque avait déjà reporté l’arrivée de ses GPU et serveurs Blackwell, destinés à l’intelligence artificielle, pour des raisons de fabrication complexes, un nouveau problème vient d’émerger. Selon un rapport de Morgan Stanley, les serveurs MGX GB200 NVL2, dans leur version à refroidissement par air, présentent des problèmes de température inquiétants. Seuls les systèmes équipés de refroidissement liquide semblent être épargnés.
Un contexte technique compliqué pour NVIDIA et ses partenaires
Depuis plusieurs mois, NVIDIA et ses partenaires, comme TSMC, Samsung et SK Hynix, font face à des défis industriels coûteux. La technologie avancée des serveurs Blackwell, bien que performante, semble avoir rencontré des obstacles imprévus. Les serveurs MGX GB200 NVL2 sont très attendus en raison de leurs performances hors normes. Ils offrent des capacités multipliant par 5 la puissance des GPU H100 dans des applications comme Llama 3, et jusqu’à 18 fois pour certaines tâches informatiques par rapport aux CPU traditionnels.
Toutefois, ces prouesses techniques sont entachées par des problèmes thermiques qui se manifestent dans les versions refroidies par air.
Des performances impressionnantes, mais à quel prix ?
Les serveurs MGX GB200 NVL2 de NVIDIA embarquent deux GPU Blackwell et deux CPU Grace, le tout connecté via un NVLink-C2C capable d’atteindre une bande passante de 1,4 To/s. Ces configurations de pointe sont vendues sous forme de rack 2U, offrant aux clients un système complet et prêt à l’emploi. Cependant, l’option de refroidissement par air semble poser problème. Les tests menés lors de la présentation des systèmes à l’OCP ont révélé que le format 2U ne permettait pas de dissiper correctement la chaleur, une contrainte qui pourrait forcer NVIDIA à passer à un format plus grand, comme le 4U.
Le problème de la surchauffe des serveurs MGX GB200 NVL2
Le rapport de Morgan Stanley précise que les partenaires de la chaîne d’approvisionnement de NVIDIA ont confirmé des problèmes thermiques avec le facteur de forme 2U. Ces systèmes, intégrant des GPU B200 Blackwell et des CPU Grace, sont basés sur un module SXM7 qui connecte les différents composants. Malgré les efforts déployés pour optimiser la conception du rack, les performances thermiques du refroidissement par air semblent insuffisantes.
Ce souci technique prend une importance particulière quand on considère le coût élevé de ces systèmes, estimé à environ un demi-million d’euros par unité. Si NVIDIA doit revoir la conception de ses racks pour passer à un format 4U, les conséquences financières et industrielles pourraient être considérables.
Un nouveau défi pour NVIDIA
NVIDIA et ses partenaires doivent désormais faire face à ce nouveau revers, après des difficultés rencontrées lors de la fabrication des puces chez TSMC et des problèmes d’emballage avec le HBM3 chez Samsung. La gestion de la chaleur dans ces serveurs, un aspect critique dans des environnements de haute performance, semble être le prochain obstacle à surmonter.
Ce nouveau contretemps montre que même les géants de l’industrie ne sont pas à l’abri d’erreurs, et les conséquences sur les délais de livraison et les coûts pour les clients pourraient être importantes. NVIDIA doit agir rapidement pour rectifier la situation et éviter des retards supplémentaires dans la commercialisation de ses serveurs Blackwell.