Przegląd
Odblokowanie modeli o trylionie parametrów w czasie rzeczywistym
GB200 NVL72 łączy 36 procesorów Grace i 72 procesory graficzne Blackwell w konstrukcji rackowej chłodzonej cieczą. Dysponuje domeną NVLink z 72 GPU, która działa jako jeden, ogromny procesor graficzny i zapewnia 30 razy szybsze wnioskowanie w czasie rzeczywistym dla modeli językowych o trylionie parametrów (LLM).
Superchip GB200 Grace Blackwell jest kluczowym składnikiem NVIDIA GB200 NVL72, łączącym dwa wysokowydajne rdzenie GPU Tensor Blackwell oraz procesor NVIDIA Grace™ za pomocą interfejsu NVIDIA NVLink™-C2C z dwoma procesorami graficznymi Blackwell.
Najważniejsze cechy
Zwiększenie wydajności następnej generacji AI i obliczeń przyspieszonych
LLM
Inference
30X
szybciej w porównaniu do GPU Tensor Core NVIDIA H100
Trening
LLM
4X
szybciej w porównaniu
do H100
Efektywność energetyczna
25X
lepsza w porównaniu
do H100
Przetwarzanie
danych
18X
szybciej w porównaniu
do CPU
Wnioskowanie LLM i efektywność energetyczna: TTL = 50 milisekund (ms) w czasie rzeczywistym, FTL = 5 s, 32,768 wejść/1,024 wyjścia, NVIDIA HGX™ H100 skalowana przez InfiniBand (IB) w porównaniu do GB200 NVL72, trening 1,8T MOE 4096x HGX H100 skalowane przez IB w porównaniu do 456x GB200 NVL72 skalowane przez IB. Rozmiar klastra: 32,768. Prognozowana wydajność może ulec zmianie.Zadanie dołączenia do bazy danych i agregacji z kompresją Snappy / Deflate pochodzącą z zapytania TPC-H Q4. Niestandardowe implementacje zapytania dla x86, pojedynczego GPU H100 oraz pojedynczego GPU z GB200 NVL72 w porównaniu do Intel Xeon 8480+.
Wnioskowanie LLM w czasie rzeczywistym
GB200 NVL72 wprowadza nowoczesne możliwości oraz silnik Transformer drugiej generacji, który umożliwia FP4 AI. W połączeniu z piątą generacją NVIDIA NVLink, zapewnia 30 razy szybszą wydajność wnioskowania LLM w czasie rzeczywistym dla modeli językowych o trylionie parametrów. Ten postęp jest możliwy dzięki nowej generacji rdzeni Tensor, które wprowadzają nowe formaty mikroskalowania, zapewniając wysoką dokładność i większą przepustowość. Dodatkowo, GB200 NVL72 wykorzystuje NVLink i chłodzenie cieczą do stworzenia jednego ogromnego racka z 72 GPU, co pozwala na pokonywanie wąskich gardeł komunikacyjnych.
Trening na ogromną skalę
GB200 NVL72 zawiera szybszy silnik Transformer drugiej generacji, z obsługą precyzji FP8, co umożliwia zadziwiające 4-krotne przyspieszenie treningu dla dużych modeli językowych w skali. Ten przełom wspierany jest przez piątą generację NVLink, która zapewnia 1,8 TB/s przepustowości interkonektu GPU do GPU, networking InfiniBand oraz oprogramowanie NVIDIA Magnum IO™.
Infrastruktura energooszczędna
Racki GB200 NVL72 chłodzone cieczą redukują ślad węglowy i zużycie energii w centrum danych. Chłodzenie cieczą zwiększa gęstość obliczeniową, zmniejsza zajmowaną powierzchnię podłogi i ułatwia komunikację GPU o wysokiej przepustowości i niskiej latencji w architekturach dużych domen NVLink. W porównaniu do infrastruktury NVIDIA H100 chłodzonej powietrzem, GB200 oferuje 25 razy większą wydajność przy tym samym poziomie zasilania, jednocześnie zmniejszając zużycie wody.
Przetwarzanie danych
Bazy danych odgrywają kluczową rolę w obsłudze, przetwarzaniu i analizie dużych wolumenów danych dla przedsiębiorstw. GB200 wykorzystuje wydajność pamięci o wysokiej przepustowości, NVLink-C2C oraz dedykowane silniki dekompresji w architekturze NVIDIA Blackwell, aby przyspieszyć kluczowe zapytania do baz danych o 18 razy w porównaniu do CPU oraz dostarczyć 5 razy lepszy całkowity koszt posiadania (TCO).
Cechy
Przełomy Technologiczne
Architektura Blackwell
Architektura NVIDIA Blackwell przynosi przełomowe osiągnięcia w obliczeniach przyspieszonych, wprowadzając nową erę obliczeń z niezrównaną wydajnością, efektywnością i skalą.
Procesor NVIDIA Grace
Procesor NVIDIA Grace to przełomowa jednostka zaprojektowana do nowoczesnych centrów danych obsługujących aplikacje AI, chmurowe i HPC. Oferuje doskonałą wydajność i szerokość pasma pamięci z 2-krotną efektywnością energetyczną w porównaniu do dzisiejszych wiodących procesorów serwerowych.
Piąta generacja NVIDIA NVLink
Odblokowanie pełnego potencjału obliczeń na poziomie eksaskali i modeli AI o trylionie parametrów wymaga szybkiej, płynnej komunikacji między każdym GPU w klastrze serwerowym. Piąta generacja NVLink to interkonekt skalowalny, który uwalnia przyspieszoną wydajność dla modeli AI o trylionie i multi-trylionie parametrów.
Sieci NVIDIA
Sieć centrum danych odgrywa kluczową rolę w napędzaniu postępów AI i wydajności, stanowiąc fundament dla rozproszonego treningu modeli AI i wydajności generatywnej AI. NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum™-X800 Ethernet oraz jednostki przetwarzania danych NVIDIA® BlueField®-3 umożliwiają efektywne skalowanie w setkach i tysiącach procesorów graficznych Blackwell, zapewniając optymalną wydajność aplikacji.
Fabryka AI dla nowej rewolucji przemysłowej
GB200 NVL72
GB200 NVL72 | GB200 Grace Blackwell Superchip | |
Konfiguracja | 36 Grace CPU : 72 Blackwell GPUs | 1 Grace CPU : 2 Blackwell GPU |
FP4 Tensor Core¹ | 1,440 PFLOPS | 40 PFLOPS |
FP8/FP6 Tensor Core¹ | 720 PFLOPS | 20 PFLOPS |
INT8 Tensor Core¹ | 720 POPS | 20 POPS |
FP16/BF16 Tensor Core¹ | 360 PFLOPS | 10 PFLOPS |
TF32 Tensor Core | 180 PFLOPS | 5 PFLOPS |
FP32 | 5,760 TFLOPS | 160 TFLOPS |
FP64 | 2,880 TFLOPS | 80 TFLOPS |
FP64 Tensor Core | 2,880 TFLOPS | 80 TFLOPS |
Pamięć GPU | Przepustowość | Do 13.4 TB HBM3e | 576 TB/s | Do 372GB HBM3e | 16 TB/s |
Przepustowość NVLink | 130TB/s | 3.6TB/s |
Liczba rdzeni CPU | 2,592 Arm® Neoverse V2 cores | 72 Arm Neoverse V2 cores |
Pamięć CPU | Przepustowość | Do 17 TB LPDDR5X | Do 18.4 TB/s | Do 480GB LPDDR5X | Do 512 GB/s |
1. Z sparsity.
Gotowy, aby zacząć?
Porozmawiaj z ekspertem produktowym NVIDIA, aby dowiedzieć się więcej o GB200 NVL72.