SuperNIC to rodzaj akceleratora sieciowego dla chmurowych centrów danych AI, który zapewnia solidną i płynna łączność między serwerami GPU.
Generatywna AI to najnowsza zmiana w szybko zmieniającym się krajobrazie cyfrowym. Jednym z przełomowych innowacji, które to umożliwiają, jest stosunkowo nowe pojęcie: SuperNIC.
Czym jest SuperNIC?
SuperNIC to nowa klasa akceleratorów sieciowych zaprojektowanych do przyspieszania obciążeń AI w skali hiperskalowej w chmurach opartych na Ethernet. Zapewnia błyskawiczną łączność sieciową do komunikacji GPU do GPU, osiągając prędkości do 400 Gb/s za pomocą zdalnego dostępu do pamięci (RDMA) w technologii Converged Ethernet (RoCE).
SuperNIC-y łączą następujące unikalne cechy:
- Szybkie przeorganizowanie pakietów: Gdy są połączone z przełącznikiem sieciowym NVIDIA, zapewniają, że pakiety danych są odbierane i przetwarzane w tej samej kolejności, w jakiej zostały pierwotnie przesłane. Utrzymuje to integralność sekwencyjną przepływu danych.
- Zaawansowane zarządzanie przeciążeniem: Używa danych telemetrycznych w czasie rzeczywistym oraz algorytmów zorientowanych na sieć do zarządzania i zapobiegania przeciążeniom w sieciach AI.
- Programowalne obliczenia na ścieżce wejścia/wyjścia (I/O): Umożliwia dostosowanie i rozszerzalność infrastruktury sieciowej w chmurach danych AI.
- Zgrabny, energooszczędny design: Efektywnie dostosowuje obciążenia AI w ramach ograniczonych budżetów energetycznych.
- Optymalizacja AI w pełnym zakresie: Obejmuje obliczenia, sieci, pamięć masową, oprogramowanie systemowe, biblioteki komunikacyjne oraz ramy aplikacji.
NVIDIA niedawno ujawniła pierwszy na świecie SuperNIC zaprojektowany z myślą o obliczeniach AI, oparty na platformie sieciowej BlueField-3. Jest to część platformy NVIDIA Spectrum-X, gdzie integruje się bezproblemowo z systemem przełączników Ethernet Spectrum-4.
Razem, NVIDIA BlueField-3 SuperNIC i system przełączników Spectrum-4 tworzą fundament przyspieszonej struktury obliczeniowej, zaprojektowanej specjalnie do optymalizacji obciążeń AI. Spectrum-X konsekwentnie zapewnia wysokie poziomy efektywności sieci, przewyższając tradycyjne środowiska Ethernet.
„W świecie, w którym AI napędza nową falę innowacji technologicznych, BlueField-3 SuperNIC jest istotnym elementem w tym mechanizmie” — powiedział Yael Shenhav, wiceprezes ds. produktów DPU i NIC w NVIDIA. „SuperNICs zapewniają, że obciążenia AI są realizowane z wydajnością i szybkością, czyniąc je podstawowymi komponentami umożliwiającymi przyszłość obliczeń AI.”
Ewoluujący krajobraz AI i sieci
Obszar AI przechodzi ogromną zmianę, dzięki pojawieniu się generatywnej AI i dużych modeli językowych. Te potężne technologie odblokowały nowe możliwości, umożliwiając komputerom realizację nowych zadań.
Sukces AI w dużym stopniu opiera się na obliczeniach przyspieszonych GPU, które przetwarzają ogromne ilości danych, trenują duże modele AI i umożliwiają wnioskowanie w czasie rzeczywistym. Ta nowa moc obliczeniowa otworzyła nowe możliwości, ale także stanowi wyzwanie dla chmurowych sieci Ethernet.
Tradycyjny Ethernet, technologia, która stanowi podstawę infrastruktury internetowej, został zaprojektowany w celu zapewnienia szerokiej kompatybilności i łączenia luźno połączonych aplikacji. Nie był zaprojektowany do obsługi wymagających potrzeb obliczeniowych nowoczesnych obciążeń AI, które wymagają ciasno powiązanej obróbki równoległej, szybkich transferów danych oraz unikalnych wzorców komunikacji — a wszystko to wymaga zoptymalizowanej łączności sieciowej.
Podstawowe karty interfejsów sieciowych (NIC) zostały zaprojektowane do ogólnych zastosowań obliczeniowych, uniwersalnej transmisji danych i interoperacyjności. Nigdy nie były zaprojektowane, aby radzić sobie z unikalnymi wyzwaniami związanymi z intensywnością obliczeniową obciążeń AI.
Standardowe NIC-y nie posiadają niezbędnych funkcji i możliwości do efektywnego transferu danych, niskiej latencji oraz deterministycznej wydajności, które są kluczowe dla zadań AI. SuperNIC-y są natomiast stworzone specjalnie dla nowoczesnych obciążeń AI.
Zalety SuperNIC w środowiskach obliczeniowych AI
Jednostki przetwarzania danych (DPU) oferują szereg zaawansowanych funkcji, zapewniając wysoką przepustowość, łączność sieciową o niskiej latencji i inne. Od momentu ich wprowadzenia w 2020 roku, DPU zyskały popularność w obszarze chmurowych obliczeń, przede wszystkim ze względu na ich zdolność do odciążania, przyspieszania i izolowania przetwarzania infrastruktury centrów danych.
Chociaż DPU i SuperNIC-y dzielą szereg funkcji i możliwości, SuperNIC-y są wyjątkowo zoptymalizowane do przyspieszania sieci dla AI. Poniższa tabela pokazuje, jak się porównują:
BlueField-3 DPU | BlueField-3 SuperN IC | |
Misja |
|
|
Wspólne możliwości | • Przyspieszanie sieci VPC • Przyspieszanie kryptografii sieciowej • Programowalny pipeline sieciowy • Precyzyjne timowanie • Bezpieczeństwo platformy |
Unikalne możliwości |
|
|
Rozproszone procesy treningowe i wnioskowania AI
Komunikacja w rozproszonym treningu i wnioskowaniu AI w dużej mierze zależy od dostępności przepustowości sieciowej dla sukcesu. SuperNICs, wyróżniające się eleganckim designem, skalują się efektywniej niż DPU, oferując imponującą przepustowość sieciową 400 Gb/s na jeden GPU.
Stosunek 1:1 między GPU a SuperNIC w systemie może znacznie zwiększyć wydajność obciążeń AI, prowadząc do większej produktywności i lepszych wyników dla przedsiębiorstw.
Jedynym celem SuperNIC jest przyspieszanie łączności w chmurze obliczeniowej AI. W związku z tym osiąga ten cel przy mniejszym zużyciu mocy obliczeniowej niż DPU, który wymaga znacznych zasobów obliczeniowych do odciążania aplikacji z procesora CPU.
Zredukowane wymagania obliczeniowe przekładają się również na niższe zużycie energii, co jest szczególnie istotne w systemach zawierających do ośmiu SuperNICs.
Dodatkowymi cechami charakterystycznymi SuperNIC są dedykowane możliwości łączności AI. Gdy są ściśle zintegrowane z optymalizowanym pod kątem AI przełącznikiem NVIDIA Spectrum-4, oferują adaptacyjne routowanie, obsługę pakietów w złej kolejności oraz zoptymalizowane zarządzanie przeciążeniem. Te zaawansowane funkcje są kluczowe w przyspieszaniu środowisk chmurowych AI opartych na Ethernet.
Rewolucjonizowanie obliczeń AI w chmurze
NVIDIA BlueField-3 SuperNIC oferuje wiele korzyści, które czynią go kluczowym elementem infrastruktury gotowej na AI:
- Wydajność szczytowa obciążeń AI: BlueField-3 SuperNIC jest stworzony specjalnie do obliczeń intensywnie sieciowych i masowo równoległych, co czyni go idealnym do obciążeń AI. Zapewnia, że zadania AI działają efektywnie — bez wąskich gardeł.
- Spójna i przewidywalna wydajność: W centrach danych z wieloma najemcami, w których równocześnie przetwarzanych jest wiele zadań, BlueField-3 SuperNIC zapewnia, że wydajność każdego zadania i najemcy jest izolowana, przewidywalna i niewrażliwa na inne działania sieciowe.
- Bezpieczna infrastruktura chmurowa dla wielu najemców: Bezpieczeństwo jest kluczowym priorytetem, szczególnie w centrach danych obsługujących wrażliwe informacje. BlueField-3 SuperNIC utrzymuje wysokie poziomy bezpieczeństwa, umożliwiając wielu najemcom współistnieć przy jednoczesnym zachowaniu izolacji danych i przetwarzania.
- Rozszerzalna infrastruktura sieciowa: BlueField-3 SuperNIC nie jest ograniczony w zakresie — jest wysoce elastyczny i dostosowujący się do różnych potrzeb infrastruktury sieciowej.
- Szerokie wsparcie producentów serwerów: BlueField-3 SuperNIC bezproblemowo integruje się z większością serwerów klasy przedsiębiorstwa, nie powodując nadmiernego zużycia energii w centrach danych.
Dowiedz się więcej o NVIDIA BlueField-3 SuperNIC, w tym o tym, jak integrują się z platformami centrum danych NVIDIA, w białej księdze: Sieci nowej generacji dla nowej fali AI.