Platforma NVIDIA HGX

Przyspieszanie zaawansowanej AI w każdym centrum danych.

Stworzony specjalnie dla AI i obliczeń wysokowydajnych

AI, złożone symulacje i ogromne zbiory danych wymagają wielu GPU z ekstremalnie szybkimi połączeniami oraz w pełni przyspieszonego stosu oprogramowania. Platforma NVIDIA HGX™ łączy pełną moc procesorów graficznych NVIDIA, NVLink™, sieci NVIDIA oraz w pełni zoptymalizowane stosy oprogramowania AI i HPC, aby zapewnić najwyższą wydajność aplikacji i przyspieszyć czas pozyskiwania informacji w każdym centrum danych.

Niezrównana platforma
przyspieszonego obliczania end-to-end

NVIDIA HGX B300 NVL16 integruje procesory graficzne NVIDIA Blackwell Ultra z szybkimi interkonektami, aby wprowadzić centrum danych w nową erę przyspieszonych obliczeń i generatywnej AI. Jako wiodąca platforma do skalowania z przyspieszeniem, oferująca do 11 razy większą wydajność wnioskowania niż poprzednia generacja, systemy HGX oparte na architekturze Blackwell są zaprojektowane do obsługi najbardziej wymagających obciążeń generatywnej AI, analizy danych i HPC.

NVIDIA HGX obejmuje zaawansowane opcje sieciowe — o prędkości do 800 gigabitów na sekundę (Gb/s) — z wykorzystaniem NVIDIA Quantum-X800 InfiniBand i Spectrum™-X Ethernet dla najwyższej wydajności AI. HGX zawiera również jednostki przetwarzania danych NVIDIA BlueField®-3 (DPU), które umożliwiają sieci chmurowe, kompozytową pamięć masową, bezpieczeństwo o zerowej ufności i elastyczność obliczeń GPU w hiperskalowych chmurach AI.

Wnioskowanie AI: Wydajność i wszechstronność

Wnioskowanie w czasie rzeczywistym dla dużych modeli językowych

HGX B300 NVL16 osiąga do 11 razy wyższą wydajność wnioskowania w porównaniu do poprzedniej generacji NVIDIA Hopper™ dla modeli takich jak Llama 3.1 405B. Silnik Transformer drugiej generacji wykorzystuje technologię rdzeni Tensor Blackwell w połączeniu z innowacjami TensorRT™-LLM, aby przyspieszyć wnioskowanie dla dużych modeli językowych (LLM).

Prognozowana wydajność może ulec zmianie. Latencja token-to-token (TTL) = 20 ms w czasie rzeczywistym; Latencja pierwszego tokena (FTL) = 5 s; Długość sekwencji wejściowej = 32,768; Długość sekwencji wyjściowej = 1,028. Porównanie wydajności na GPU: 8x osiem jednostek HGX H100 chłodzonych powietrzem w porównaniu do 1x HGX B300 NVL16 chłodzonego powietrzem; dostarczane z wykorzystaniem rozdzielonego wnioskowania.

Trening AI: Wydajność i skalowalność

Wydajność treningu na nowym poziomie

Silnik Transformer drugiej generacji, z obsługą 8-bitowego formatu zmiennoprzecinkowego (FP8) i nowymi precyzjami, umożliwia wyjątkowo 4-krotne przyspieszenie treningu dla dużych modeli językowych, takich jak Llama 3.1 405B. Ten przełom wspierany jest przez piątą generację NVLink z przepustowością 1,8 TB/s dla połączenia GPU do GPU, networking InfiniBand oraz oprogramowanie NVIDIA Magnum IO™. Razem te elementy zapewniają efektywną skalowalność dla przedsiębiorstw i rozbudowanych klastrów obliczeniowych GPU.

Porównanie wydajności na GPU: 8x osiem jednostek HGX H100 w porównaniu do 1x HGX B300 NVL16.

Przyspieszanie HGX z siecią NVIDIA

Centrum danych stało się nową jednostką obliczeniową, a sieć odgrywa integralną rolę w skalowaniu wydajności aplikacji w tym obszarze. W połączeniu z NVIDIA Quantum InfiniBand, HGX zapewnia wydajność i efektywność klasy światowej, co gwarantuje pełne wykorzystanie zasobów obliczeniowych.

Dla centrów danych AI w chmurze, które wdrażają Ethernet, HGX jest najlepiej używany z platformą sieciową NVIDIA Spectrum-X™, która zapewnia najwyższą wydajność AI przez Ethernet. Obejmuje przełączniki Spectrum-X i NVIDIA SuperNIC, zapewniając optymalne wykorzystanie zasobów i izolację wydajności, co skutkuje stałymi, przewidywalnymi rezultatami dla tysięcy równoczesnych zadań AI na każdym poziomie. Spectrum-X umożliwia zaawansowane zarządzanie wieloma najemcami w chmurze oraz bezpieczeństwo o zerowej ufności. Jako projekt referencyjny, NVIDIA zaprojektowała Israel-1, hiperskalowy superkomputer generatywnej AI zbudowany na serwerach Dell PowerEdge XE9680 opartych na platformie NVIDIA HGX 8-GPU, SuperNIC-ach BlueField-3 oraz przełącznikach Spectrum-4.

Specyfikacje NVIDIA HGX

NVIDIA HGX jest dostępny w pojedynczych płytach bazowych z czterema lub ośmioma GPU Hopper, ośmioma GPU NVIDIA Blackwell lub szesnastoma GPU NVIDIA Blackwell Ultra. Te potężne zestawy sprzętu i oprogramowania stanowią fundament dla bezprecedensowej wydajności superkomputingu AI.

Blackwell
Hopper

	HGX B300 NVL16	HGX B200
Format	16x NVIDIA Blackwell Ultra GPU	8x NVIDIA Blackwell GPU
Rdzeń Tensor FP4**	144 PFLOPS	105 PFLOPS
Rdzeń Tensor FP8/FP6*	72 PFLOPS	72 PFLOPS
Rdzeń Tensor INT8*	2 POPS	72 POPS
Rdzeń Tensor FP16/BF16*	36 PFLOPS	36 PFLOPS
Rdzeń Tensor TF32*	18 PFLOPS	18 PFLOPS
FP32	600 TFLOPS	600 TFLOPS
Rdzeń Tensor FP64/FP64	10 TFLOPS	296 TFLOPS
Całkowita pamięć	Do 2.3 TB	1.4 TB
NVLink	Piąta generacja	Piąta generacja
NVIDIA NVSwitch™	Przełącznik NVLink 5	Przełącznik NVLink 5
Przepustowość NVSwitch GPU do GPU	1.8 TB/s	1.8 TB/s
Całkowita przepustowość NVLink	14.4 TB/s	14.4 TB/s
Przepustowość sieci	1.6 TB/s	0.8 TB/s
Wydajność Attention	2X	1X

* Przy rozrzedzeniu

** Przy rozrzedzeniu | bez rozrzedzenia

Przeczytaj kartę katalogową NVIDIA Blackwell

HGX H200

	4-GPU	8-GPU
Format	4x NVIDIA H200 SXM	8x NVIDIA H200 SXM
Rdzeń Tensor FP8*	16 PFLOPS	32 PFLOPS
Rdzeń Tensor INT8*	16 POPS	32 POPS
Rdzeń Tensor FP16/BF16*	8 PFLOPS	16 PFLOPS
Rdzeń Tensor TF32*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
Rdzeń Tensor FP64	270 TFLOPS	540 TFLOPS
Całkowita pamięć	564 GB HBM3	1.1 TB HBM3
Przepustowość łączy GPU	19 GB/s	38 GB/s
NVLink	Czwarta generacja	Czwarta generacja
NVSwitch	N/A	Przełącznik NVLink 4
Przepustowość NVSwitch GPU do GPU	N/A	900 GB/s
Całkowita przepustowość agregowana	3.6 TB/s	7.2 TB/s
Przepustowość sieci	0.4 TB/s	0.8 TB/s

HGX H100

	4-GPU	8-GPU
Format	4x NVIDIA H100 SXM	8x NVIDIA H100 SXM
Rdzeń Tensor FP8*	16 PFLOPS	32 PFLOPS
Rdzeń Tensor INT8*	16 POPS	32 POPS
Rdzeń Tensor FP16/BF16*	8 PFLOPS	16 PFLOPS
Rdzeń Tensor TF32*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
Rdzeń Tensor FP64	270 TFLOPS	540 TFLOPS
Całkowita pamięć	320 GB HBM3	640 GB HBM3
Przepustowość łączy GPU	13 GB/s	27 GB/s
NVLink	Czwarta generacja	Czwarta generacja
NVSwitch	N/A	Przełącznik NVLink 4
Przepustowość NVSwitch GPU do GPU	N/A	900 GB/s
Całkowita przepustowość agregowana	3.6 TB/s	7.2 TB/s
Przepustowość sieci	0.4 TB/s	0.8 TB/s

* Przy rozrzedzeniu

Przeczytaj kartę katalogową NVIDIA HGX H100 i HGX H200

Powiadom mnie, gdy NVIDIA HGX będzie dostępny.

Powiadom mnie

Pegasus

SANLink

Vess

VTrak

KOMPONENTY

Karty Graficzne i GPU

CHMURA i centrum danych