
Nvidia dgx h200

Table of Contents
Introduction
Dans le monde en constante évolution de l’intelligence artificielle (IA), NVIDIA a encore une fois repoussé les limites de l’impossible avec le lancement du DGX GH200. Ce superordinateur d’IA est une bête de somme technologique qui redéfinit ce qui est possible dans le domaine de l’IA et ouvre un nouveau monde de possibilités pour les chercheurs et les développeurs.
NVIDIA DGX GH200: Un instrument d’IA aux mille milliards de paramètres
Le NVIDIA DGX GH200 est conçu pour gérer des modèles de classe téraoctet pour des systèmes de recommandation massifs, l’IA générative et l’analytique de graphes, offrant 144 téraoctets (To) de mémoire partagée avec une scalabilité linéaire pour des modèles d’IA géants. Il est le seul superordinateur d’IA qui offre un espace mémoire partagé massif de 144 To sur 256 superchips NVIDIA Grace Hopper, fournissant aux développeurs près de 500 fois plus de mémoire pour construire des modèles géants.
Ce nouveau superordinateur d’IA représente un véritable instrument aux mille milliards de paramètres de l’IA, ouvrant un potentiel énorme à l’ère de l’IA avec une nouvelle classe de superordinateur d’IA qui connecte entièrement 256 superchips NVIDIA Grace Hopper™ en un seul GPU.
Une informatique super puissante et économe en énergie
En outre, les superchips Grace Hopper éliminent le besoin d’une connexion traditionnelle CPU-vers-GPU PCIe en combinant un CPU NVIDIA Grace™ avec un GPU NVIDIA Hopper™ sur le même package, augmentant la bande passante de 7 fois et réduisant la consommation d’énergie de l’interconnexion de plus de 5 fois. Cette combinaison offre une puissance de calcul super efficace, tout en réduisant l’empreinte énergétique, une avancée qui permettra de nouvelles applications d’IA de grande échelle.

Un superordinateur intégré et prêt à l’emploi
Le NVIDIA DGX GH200 est conçu pour être déployé rapidement et efficacement. Il permet de construire des modèles géants en semaines au lieu de mois grâce à une solution intégrée de classe centre de données. Cette solution complète inclut un logiciel intégré et des services haut de gamme de NVIDIA, de la conception au déploiement, pour accélérer le retour sur investissement de l’IA.
En somme, le NVIDIA DGX GH200 est plus qu’un simple superordinateur. C’est un outil clé en main qui accélère le processus de déploiement de l’IA, permettant aux organisations de toutes tailles de tirer parti des avantages de l’IA plus rapidement et plus efficacement que jamais.
Interconnexions évolutives avec NVLink, NVSwitch, et le système de commutation NVLink
En outre, le DGX GH200 évolue jusqu’à 256 GPU en étendant le NVLink® de NVIDIA® entre chaque superchip Grace Hopper avec le système de commutation NVLink, ce qui permet au DGX GH200 d’évoluer jusqu’à 256 GPU.
Plus de détails
Le NVIDIA DGX GH200 est proposé comme un système unique optimisé pour les modèles d’IA gourmands en mémoire pour le traitement du langage naturel (NPM), les systèmes de recommandation et les réseaux neuronaux de graphes. Les dirigeants ont comparé le GH200 au serveur DGX H100 récemment lancé par la société, affirmant une mémoire jusqu’à 500 fois supérieure. Cependant, les deux systèmes ne sont pas tout à fait comparables. Le DGX H100 est un système de 8U avec deux Intel Xeons et huit GPU H100 et autant de NIC. Le DGX GH200 est un cluster de 24 racks basé sur une architecture entièrement Nvidia.
Au cœur de ce super-système se trouve la puce Grace-Hopper de Nvidia. Dévoilée lors de l’événement GTC de mars 2022, le matériel combine un cluster de CPU Grace de 72 cœurs compatibles Arm et 512 Go de mémoire LPDDR5X avec un die de GPU GH100 Hopper de 96 Go utilisant l’interface NVLink-C2C de 900 Gbps de la société.
Selon Ian Buck, vice-président de l’informatique accélérée de Nvidia, le NVIDIA DGX GH200 comprend 16 racks de calcul, chacun avec 16 nœuds équipés d’une superpuce. En tout, la plateforme DGX GH200 compte 18 432 cœurs, 256 GPU et une mémoire « unifiée » revendiquée de 144 To. Seulement environ 20 To de cela est le HBM3 super rapide qui est généralement utilisé pour stocker les paramètres du modèle. Les autres 124 To sont de la DRAM.
Dans les scénarios où une charge de travail ne peut pas tenir dans la vRAM des GPU, elle finit généralement par déborder sur la DRAM beaucoup plus lente, ce qui est encore freiné par la nécessité de copier des fichiers via une interface PCIe. Cela, bien sûr, n’est pas idéal pour les performances. Mais il semble que Nvidia contourne cette limitation en utilisant une combinaison de mémoire LPDDR5X très rapide, bonne pour une demi-téraoctet par seconde de bande passante, et NVLink plutôt que PCIe.
Nvidia n’utilise pas seulement NVLink pour les communications GPU-GPU, mais aussi pour coller ensemble les 256 nœuds du système. Selon Nvidia, cela permettra à de très grands modèles de langage (LLM) de se répandre à travers les 256 nœuds du système tout en évitant les goulets d’étranglement du réseau.
Malgré cette limitation, Nvidia revendique toujours des accélérations assez importantes pour une variété de charges de travail, y compris le traitement du langage naturel, les systèmes de recommandation et les réseaux neuronaux de graphes, par rapport à un cluster de DGX H100 plus conventionnels utilisant InfiniBand. En tout, Nvidia affirme qu’un seul cluster NVIDIA DGX GH200 est capable de fournir une performance de pointed’environ un exaflop. Dans une charge de travail HPC pure, les performances seront nettement inférieures. Le responsable de l’informatique accélérée de Nvidia estime que la performance de pointe dans une charge de travail FP64 est d’environ 17,15 pétaflops lors de l’utilisation des cœurs de tenseur du GPU.

Nvidia n’a pas répondu à nos questions sur la gestion thermique ou la consommation d’énergie, mais compte tenu de la densité de calcul du cluster et du public visé, nous sommes presque certainement en train de regarder un système refroidi par air. Même sans passer au refroidissement par liquide ou par immersion, quelque chose que l’entreprise envisage, Nvidia aurait pu rendre le cluster beaucoup plus compact. La puce Grace-Hopper de Nvidia seule nécessite environ un kilowatt d’énergie. Ainsi, sans prendre en compte la consommation de la carte mère et du réseau, vous regardez le refroidissement d’environ 16 kilowatts par rack, juste pour le calcul.
Considérant que le cluster est vendu comme une unité, on soupçonne que les types de clients envisageant le NVIDIA DGX GH200 prennent également en compte la gestion thermique et la consommation d’énergie. Selon Nvidia, Meta, Microsoft et Google déploient déjà les clusters, avec une disponibilité générale prévue pour avant la fin de 2023.