Czym jest SuperNIC?


Źródło: blogs.nv​​idia.com
Autor: Itay Ozery

SuperNIC to rodzaj akceleratora sieciowego dla chmurowych centrów danych AI, który zapewnia solidną i płynna łączność między serwerami GPU.

Generatywna AI to najnowsza zmiana w szybko zmieniającym się krajobrazie cyfrowym. Jednym z przełomowych innowacji, które to umożliwiają, jest stosunkowo nowe pojęcie: SuperNIC.

Czym jest SuperNIC?

SuperNIC to nowa klasa akceleratorów sieciowych zaprojektowanych do przyspieszania obciążeń AI w skali hiperskalowej w chmurach opartych na Ethernet. Zapewnia błyskawiczną łączność sieciową do komunikacji GPU do GPU, osiągając prędkości do 400 Gb/s za pomocą zdalnego dostępu do pamięci (RDMA) w technologii Converged Ethernet (RoCE).

SuperNIC-y łączą następujące unikalne cechy:

  • Szybkie przeorganizowanie pakietów: Gdy są połączone z przełącznikiem sieciowym NVIDIA, zapewniają, że pakiety danych są odbierane i przetwarzane w tej samej kolejności, w jakiej zostały pierwotnie przesłane. Utrzymuje to integralność sekwencyjną przepływu danych.
  • Zaawansowane zarządzanie przeciążeniem: Używa danych telemetrycznych w czasie rzeczywistym oraz algorytmów zorientowanych na sieć do zarządzania i zapobiegania przeciążeniom w sieciach AI.
  • Programowalne obliczenia na ścieżce wejścia/wyjścia (I/O): Umożliwia dostosowanie i rozszerzalność infrastruktury sieciowej w chmurach danych AI.
  • Zgrabny, energooszczędny design: Efektywnie dostosowuje obciążenia AI w ramach ograniczonych budżetów energetycznych.
  • Optymalizacja AI w pełnym zakresie: Obejmuje obliczenia, sieci, pamięć masową, oprogramowanie systemowe, biblioteki komunikacyjne oraz ramy aplikacji.

NVIDIA niedawno ujawniła pierwszy na świecie SuperNIC zaprojektowany z myślą o obliczeniach AI, oparty na platformie sieciowej BlueField-3. Jest to część platformy NVIDIA Spectrum-X, gdzie integruje się bezproblemowo z systemem przełączników Ethernet Spectrum-4.

Razem, NVIDIA BlueField-3 SuperNIC i system przełączników Spectrum-4 tworzą fundament przyspieszonej struktury obliczeniowej, zaprojektowanej specjalnie do optymalizacji obciążeń AI. Spectrum-X konsekwentnie zapewnia wysokie poziomy efektywności sieci, przewyższając tradycyjne środowiska Ethernet.

„W świecie, w którym AI napędza nową falę innowacji technologicznych, BlueField-3 SuperNIC jest istotnym elementem w tym mechanizmie” — powiedział Yael Shenhav, wiceprezes ds. produktów DPU i NIC w NVIDIA. „SuperNICs zapewniają, że obciążenia AI są realizowane z wydajnością i szybkością, czyniąc je podstawowymi komponentami umożliwiającymi przyszłość obliczeń AI.”

Ewoluujący krajobraz AI i sieci

Obszar AI przechodzi ogromną zmianę, dzięki pojawieniu się generatywnej AI i dużych modeli językowych. Te potężne technologie odblokowały nowe możliwości, umożliwiając komputerom realizację nowych zadań.

Sukces AI w dużym stopniu opiera się na obliczeniach przyspieszonych GPU, które przetwarzają ogromne ilości danych, trenują duże modele AI i umożliwiają wnioskowanie w czasie rzeczywistym. Ta nowa moc obliczeniowa otworzyła nowe możliwości, ale także stanowi wyzwanie dla chmurowych sieci Ethernet.

Tradycyjny Ethernet, technologia, która stanowi podstawę infrastruktury internetowej, został zaprojektowany w celu zapewnienia szerokiej kompatybilności i łączenia luźno połączonych aplikacji. Nie był zaprojektowany do obsługi wymagających potrzeb obliczeniowych nowoczesnych obciążeń AI, które wymagają ciasno powiązanej obróbki równoległej, szybkich transferów danych oraz unikalnych wzorców komunikacji — a wszystko to wymaga zoptymalizowanej łączności sieciowej.

Podstawowe karty interfejsów sieciowych (NIC) zostały zaprojektowane do ogólnych zastosowań obliczeniowych, uniwersalnej transmisji danych i interoperacyjności. Nigdy nie były zaprojektowane, aby radzić sobie z unikalnymi wyzwaniami związanymi z intensywnością obliczeniową obciążeń AI.

Standardowe NIC-y nie posiadają niezbędnych funkcji i możliwości do efektywnego transferu danych, niskiej latencji oraz deterministycznej wydajności, które są kluczowe dla zadań AI. SuperNIC-y są natomiast stworzone specjalnie dla nowoczesnych obciążeń AI.

Zalety SuperNIC w środowiskach obliczeniowych AI

Jednostki przetwarzania danych (DPU) oferują szereg zaawansowanych funkcji, zapewniając wysoką przepustowość, łączność sieciową o niskiej latencji i inne. Od momentu ich wprowadzenia w 2020 roku, DPU zyskały popularność w obszarze chmurowych obliczeń, przede wszystkim ze względu na ich zdolność do odciążania, przyspieszania i izolowania przetwarzania infrastruktury centrów danych.

Chociaż DPU i SuperNIC-y dzielą szereg funkcji i możliwości, SuperNIC-y są wyjątkowo zoptymalizowane do przyspieszania sieci dla AI. Poniższa tabela pokazuje, jak się porównują:

BlueField-3 DPU BlueField-3 SuperN IC 
Misja
  • Procesor infrastruktury chmurowej
  • Odciążanie, przyspieszanie i izolacja infrastruktury centrów danych
  • Optymalizacja dla N-S w systemach klasy GPU
  • Przyspieszona łączność dla obliczeń AI
  • Najlepsza w swojej klasie łączność RoCE
  • Optymalizacja dla E-W w systemach klasy GPU  
Wspólne możliwości• Przyspieszanie sieci VPC
• Przyspieszanie kryptografii sieciowej
• Programowalny pipeline sieciowy
• Precyzyjne timowanie
• Bezpieczeństwo platformy  
Unikalne możliwości
  • Potężne obliczenia
  • Bezpieczne zarządzanie zerowym zaufaniem
  • Przyspieszenie przechowywania danych
  • Elastyczne udostępnianie infrastruktury
  • 1-2 DPU na system  
  • Potężne łączenie sieciowe
  • Zestaw funkcji sieciowych AI
  • Optymalizacja pełnostackowa NVIDIA AI
  • Energooszczędny, niskoprofilowy design
  • Do 8 SuperNICs na system  

Rozproszone procesy treningowe i wnioskowania AI

Komunikacja w rozproszonym treningu i wnioskowaniu AI w dużej mierze zależy od dostępności przepustowości sieciowej dla sukcesu. SuperNICs, wyróżniające się eleganckim designem, skalują się efektywniej niż DPU, oferując imponującą przepustowość sieciową 400 Gb/s na jeden GPU.

Stosunek 1:1 między GPU a SuperNIC w systemie może znacznie zwiększyć wydajność obciążeń AI, prowadząc do większej produktywności i lepszych wyników dla przedsiębiorstw.

Jedynym celem SuperNIC jest przyspieszanie łączności w chmurze obliczeniowej AI. W związku z tym osiąga ten cel przy mniejszym zużyciu mocy obliczeniowej niż DPU, który wymaga znacznych zasobów obliczeniowych do odciążania aplikacji z procesora CPU.

Zredukowane wymagania obliczeniowe przekładają się również na niższe zużycie energii, co jest szczególnie istotne w systemach zawierających do ośmiu SuperNICs.

Dodatkowymi cechami charakterystycznymi SuperNIC są dedykowane możliwości łączności AI. Gdy są ściśle zintegrowane z optymalizowanym pod kątem AI przełącznikiem NVIDIA Spectrum-4, oferują adaptacyjne routowanie, obsługę pakietów w złej kolejności oraz zoptymalizowane zarządzanie przeciążeniem. Te zaawansowane funkcje są kluczowe w przyspieszaniu środowisk chmurowych AI opartych na Ethernet.

Rewolucjonizowanie obliczeń AI w chmurze

NVIDIA BlueField-3 SuperNIC oferuje wiele korzyści, które czynią go kluczowym elementem infrastruktury gotowej na AI:

  • Wydajność szczytowa obciążeń AI: BlueField-3 SuperNIC jest stworzony specjalnie do obliczeń intensywnie sieciowych i masowo równoległych, co czyni go idealnym do obciążeń AI. Zapewnia, że zadania AI działają efektywnie — bez wąskich gardeł.
  • Spójna i przewidywalna wydajność: W centrach danych z wieloma najemcami, w których równocześnie przetwarzanych jest wiele zadań, BlueField-3 SuperNIC zapewnia, że wydajność każdego zadania i najemcy jest izolowana, przewidywalna i niewrażliwa na inne działania sieciowe.
  • Bezpieczna infrastruktura chmurowa dla wielu najemców: Bezpieczeństwo jest kluczowym priorytetem, szczególnie w centrach danych obsługujących wrażliwe informacje. BlueField-3 SuperNIC utrzymuje wysokie poziomy bezpieczeństwa, umożliwiając wielu najemcom współistnieć przy jednoczesnym zachowaniu izolacji danych i przetwarzania.
  • Rozszerzalna infrastruktura sieciowa: BlueField-3 SuperNIC nie jest ograniczony w zakresie — jest wysoce elastyczny i dostosowujący się do różnych potrzeb infrastruktury sieciowej.
  • Szerokie wsparcie producentów serwerów: BlueField-3 SuperNIC bezproblemowo integruje się z większością serwerów klasy przedsiębiorstwa, nie powodując nadmiernego zużycia energii w centrach danych.

Dowiedz się więcej o NVIDIA BlueField-3 SuperNIC, w tym o tym, jak integrują się z platformami centrum danych NVIDIA, w białej księdze: Sieci nowej generacji dla nowej fali AI.