Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W
Od tygodni pojawiały się w sieci informacje na temat nowej generacji akceleratorów GPU do zaawansowanych obliczeń dla rynku HPC oraz AI od firmy NVIDIA. Od dawna wiedzieliśmy, że architektura Ampere na tym rynku zostanie zastąpiona przez architekturę Hopper. Dzisiaj odbywa się konferencja producenta w ramach GPU Technology Conference, podczas której omówiono zarówno wspomnianą architekturę Hopper (nazwa na cześć pionierki informatyki - Grace Hopper), przygotowanej z myślą nie tylko o rynku HPC, ale przede wszystkim z myślą o coraz bardziej zaawansowanych obliczeniach opartych na sztucznej inteligencji. Poznaliśmy także szczegóły akceleratora NVIDIA H100 i nie zabrakło kilku niespodzianek. Nowy układ GPU faktycznie wykorzysta litografię TSMC, ale nie 5 nm.
Podczas konferencji GTC 2022, NVIDIA oficjalnie zaprezentowała akcelerator graficzny H100, oparty na architekturze Hopper. Wykorzystuje litografię TSMC 4 nm (N4), posiada 80 miliardów tranzystorów oraz 80 GB pamięci HBM3. Współczynnik TDP jest jednak bardzo wysoki - sięga aż 700 W.
AMD Instinct MI210 - nowy akcelerator na architekturze CDNA 2 dla rynku HPC oraz AI. Na pokładzie 64 GB HBM2e
Poznaliśmy w końcu szereg informacji na temat architektury Hopper oraz akceleratora NVIDIA H100, który będzie jego sercem. Według deklaracji NVIDII, nowa architektura jest największym skokiem technologicznym oraz wydajnościowym w historii firmy. Hopper wykorzystuje niestandardowy (co jest wyraźnie podkreślane) proces technologiczny TSMC N4, a akcelerator NVIDIA H100 oferowany będzie zarówno w formie SXM5, jak również PCIe 5.0 (pierwszy profesjonalny układ, wykorzystujący standard PCIe 5.0 o znacznie wyższej przepustowości danych - mowa o dwukrotnym wzroście względem PCIe 4.0 - 128 GB/s zamiast 64 GB/s). Rdzeń NVIDIA GH100 posiada także 80 miliardów tranzystorów. Ponownie wersje H100 SXM5 oraz PCIe 5.0 różnią się specyfikacją. Bardziej dopakowany, ale i zauważalnie bardziej prądożerny H100 SXN5 oferuje 132 aktywne bloki SM (Streaming Multiprocessor). Wersja PCIe 5.0 ma z kolei 114 aktywnych bloków SM. Dla przypomnienia - pełny rdzeń GH100 oferuje 144 SM, więc żadna wersja akceleratora NVIDIA H100 nie oferuje w pełni sprawnego układu GPU. Pełny GH100 posiada także 60 MB pamięci cache L2, z czego NVIDIA H100 SXM5 wykorzystuje 50 MB. Cały układ NVIDIA GH100 ma powierzchnię 814 mm² i posiada 18432 rdzeni CUDA FP32.
NVIDIA H100 PCIe | AMD Instinct MI250 | AMD Instinct MI250X | NVIDIA A100 | |
Architektrura | Hopper | CDNA 2 | CDNA 2 | Ampere |
Budowa | Monolit | MCM | MCM | Monolit |
Litografia | TSMC N4 | TSMC N6 | TSMC N6 | TSMC N7 |
Tranzystory | 80 mld | 58,2 mld | 58,2 mld | 54,2 mld |
Bloki CU/SM | 114 | 208 | 220 | 108 |
Procesory | 14592 | 13312 | 14080 | 6912 |
Rdzenie Matrix | - | 832 | 880 | - |
Rdzenie Tensor | 456 (4 per SM) | - | - | 432 (4 per SM) |
Taktowanie Boost | Brak informacji | 1700 MHz | 1700 MHz | 1410 MHz |
Moc FP32 | 48,0 TFLOPS | 45,3 TFLOPS | 47,9 TFLOPS | 19,5 TFLOPS |
Moc FP32 Matrix | - | 90,5 TFLOPS | 95,7 TFLOPS | - |
Moc FP64 | 24,0 TFLOPS | 45,3 TFLOPS | 47,9 TFLOPS | 9,7 TFLOPS |
Moc FP64 Matrix | - | 90,5 TFLOPS | 95,7 TFLOPS | - |
Pamięć | 80 GB HBM3 | 128 GB HBM2e | 128 GB HBM2e | Do 80 GB HBM2e |
Magistrala | 5120-bit | 8192-bit | 8192-bit | 5120-bit |
Przepustowość | 2 TB/s | 3,2 TB/s | 3,2 TB/s | 1,6 TB/s |
Pobór energii | 350 W | 560 W | 560 W | 400 W |
NVIDIA H100 SXM5 | NVIDIA H100 PCIe | NVIDIA A100 SXM4 | |
Architektura | Hopper | Hopper | Ampere |
Litografia | TSMC N4 | TSMC N4 | TSMC N7 |
Liczba bloków SM | 132 | 114 | 108 |
Liczba tranzystorów | 80 mld | 80 mld | 54,2 mld |
Liczba rdzeni CUDA FP32 | 16896 | 14592 | 6912 |
Liczba rdzeni CUDA FP64 | 8448 | 7296 | 3456 |
Rdzenie Tensor 4. generacji | 528 | 456 | 432 (3. generacji) |
Taktowanie rdzenia | ? | ? | 1410 MHz |
Moc FP16 (peak) | 120 TFLOPS | 96 TFLOPS | 78 TFLOPS |
Moc FP32 (peak) | 60 TFLOPS | 48 TFLOPS | 19,5 TFLOPS |
Moc FP64 (peak) | 30 TFLOPS | 24 TFLOPS | 9,7 TFLOPS |
TF32 Tensor TFLOPS | 500/1000 TFLOPS | 400/800 TFLOPS | 156/312 TFLOPS |
FP64 Tensor TFLOPS | 60 TFLOPS | 48 TFLOPS | 19,5 TFLOPS |
INT8 Tensor TOPS | 2000/4000 TOPS | 1600/3200 TOPS | 624/1248 TOPS |
Jednostki teksturujące | 528 | 456 | 432 |
Pamięć VRAM | 80 GB HBM3 | 80 GB HBM3 | 40/80 GB HBM2e |
Magistrala | 5120-bit | 5120-bit | 5120-bit |
Przepustowość | 3 TB/s | 2 TB/s | 1,6 TB/s |
Przepustowość połączeń | NVLink: 900 GB/s PCIe 5.0: 128 GB/s |
NVLink: 600 GB/s PCIe 5.0: 128 GB/s |
NVLink: 600 GB/s PCIe 4.0: 64 GB/s |
TDP | 700 W | 350 W | 400 W |
AMD Instinct MI250X oraz EPYC Milan-X - modułowe GPU oraz serwerowe procesory z pamięcią 3D V-Cache już oficjalnie
Finalnie potwierdziły się informacje odnośnie układu GH100 - nie będzie to układ o budowie MCM, a zwykły monolit. NVIDIA H100 SMX5 będzie posiadać łącznie 15872 rdzenie CUDA FP32 (128 na każdy blok SM, tutaj nic się nie zmienia względem Ampere), z kolei NVIDIA H100 PCIe będzie posiadać łącznie 14592 rdzenie CUDA FP32. W przypadku obliczeń FP64, mowa o odpowiednio 8448 oraz 7296 rdzeniach CUDA. W obu przypadkach jest to ponad dwukrotnie więcej w porównaniu do akceleratora A100 (6912 rdzeni CUDA FP32 oraz 3456 rdzeni CUDA FP64). Od samego początku układy będą dostępne z 80 GB pamięci typu HBM3. NVIDIA wykorzysta zatem najszybsze obecnie kości pamięci. W obu wersjach akceleratora, wykorzystana zostanie magistrala 5120-bitowa, aczkolwiek wersja SMX5 zaoferuje znacznie wyższą przepustowość, sięgającą imponujących 3 TB/s. Dla wariantu PCIe 5.0 będzie to 2 TB/s. Dla porównania A100 oferuje przepustowość 1,6 TB/s. NVIDIA H100 SMX5 może poszczycić się także znacznie wyższą przepustowością połączeń dla interfejsu NVLink - 900 GB/s dla H100 (600 GB/s dla A100). Wszystko to jednak okupione zostanie znacznie wyższym współczynnikiem TDP dla wersji SMX5. Wynosi on bowiem aż 700 W, podczas gdy A100 SMX4 miał TDP 400 W. Dla porównania wersja PCIe 5.0 będzie również nieco bardziej prądożerna od poprzednika - 350 W dla H100 vs 250 W dla A100 40 GB oraz 300 W dla A100 80 GB.
NVIDIA Hopper GH100 - nowe informacje o budowie oraz specyfikacji układu graficznego kolejnej generacji
Architektura Hopper została przygotowana ściśle pod obliczenia związane ze sztuczną inteligencją - kilkukrotne wzrosty wydajności w obliczeniach przy wykorzystaniu rdzeni Tensor 4. generacji mówią same za siebie. Jedną z kluczowych cech Hoppera jest wsparcie dla dynamicznego programowania (Dynamic Programming) - nauce powstałej w latach 50. ubiegłego wieku, w której kluczową rolę odgrywają dwie techniki: rekurencji oraz memoizacji. Rekursja polega na rozbiciu problemu na prostsze podproblemy, co pozwala zaoszczędzić czas i wysiłek obliczeniowy. W memoizacji przechowuje się odpowiedzi na te podproblemy, które są wielokrotnie wykorzystywane podczas rozwiązywania głównego problemu. Architektura Hopper robi także użytek z nowego typu instrukcji - DPX - których głównym celem jest przyspieszenie działania algorytmów dla dynamicznego programowania. Jeden akcelerator NVIDIA H100 uzyskuje w ten sposób 7-krotnie przyspieszenie w tego typu obliczeniach w porównaniu do akceleratora poprzedniej generacji w postaci NVIDIA A100.
NVIDIA Ada, Hopper oraz Blackwell - nowe informacje na temat nadchodzących kart graficznych dla PC oraz HPC
Kolejną nowością, wykorzystaną w architekturze Hopper, jest wbudowany układ o nazwie Confidential Computing. Jego najważniejszym zadaniem jest ochrona danych użytkowników, zabezpieczenie serwerów przed atakami sprzętowymi oraz programowymi, a także lepszą izolację i ochronę maszyn wirtualnych w środowiskach zwirtualizowanych oraz MIG. Jest to bardzo ważna nowość, ponieważ akcelerator NVIDIA H100 jest pierwszym GPU na świecie, który implementuje natywny chip Confidential Computing - dotychczas podobne rozwiązania widywaliśmy wyłącznie w zwykłych procesorach. NVIDIA Hopper wprowadza także obsługę połączeń NVLink 4. generacji, znacząco zwiększając przepustowość - z 600 do 900 GB/s.
NVIDIA zapowiada konferencję na GTC 2022 hasłem Hopped Up. Prezentacja nowej architektury GPU Hopper już za kilka dni
Wraz z prezentacją akceleratora NVIDIA H100, pokazano także kompletne stacje robocze, na bazie których można stworzyć wydajne serwery do obliczeń m.in. opartych na sztucznej inteligencji. Pierwszy to system DGX H100, w którym umieszczono osiem akceleratorów graficznych NVIDIA A100, wyposażonych w łącznie 640 GB pamięci HBM3, 640 miliardów tranzystorów oraz z mocą obliczeniową na poziomie 32 PFLOPS (dla AI). Łączna przepustowość takiego zestawu wynosi 24 TB/s. Na bazie DGX H100, producent zaprezentował także dwie ogromne stacje obliczeniowe: DGX POD H100 oraz NVIDIA EOS. Ten pierwszy może oferować do 1 exaflopa mocy obliczeniowej w zadaniach opartych o AI oraz posiada 20 TB pamięci HBM3. NVIDIA EOS, będąca czymś w rodzaju superkomputera, składa się z 18 stacji obliczeniowych DGX POD H100. Według producenta, EOS jest najwydajniejszym systemem na świecie, jeśli chodzi o obliczenia AI. We wstępnych porównaniach wydajności, architektura Hopper dosłownie niszczy akcelerator A100, oparty na architekturze Ampere. Wyspecjalizowane obliczenia trwają nawet wielokrotnie krócej, co skraca czas potrzebny na wykonywanie zadań z dni do godzin. Wszystkie platformy oparte o układy NVIDIA H100 będą dostępne w trzecim kwartale roku.
NVIDIA Grace - prezentacja nowego SoC z rdzeniami Neoverse. Ponadto premiera następcy architektury Ampere w 2022 roku
Podczas konferencji nie zabrakło także aktualizacji dotyczącej projektu NVIDIA Grace, który po drodze przechrzczono na NVIDIA Grace Hopper SUPERCHIP oraz NVIDIA Grace CPU SUPERCHIP. Ten pierwszy jest połączeniem układu GPU Hopper oraz procesora ARM Grace, składającego się z rdzeni Neoverse. Drugi projekt to połączone mostkiem NVLink dwa procesory Grace, wspierane pamięcią typu LPDDR5X o przepustowości sięgającej 1 TB/s i z aktywną korekcją błędów ECC. NVIDIA Grace Hopper SUPERCHIP jest platformą stworzoną do zaawansowanych obliczeń dla HPC oraz AI. Kombinacja ta posiada m.in. 600 GB pamięci GPU oraz interfejs NVLink do sprawnej komunikacji o przepustowości 900 GB/s. Drugą platformą jest NVIDIA Grace CPU SUPERCHIP, przygotowany z myślą o obsłudze infrastruktury HPC oraz AI. W tym wypadku mowa o dwóch procesorach ARM, wyposażonych łącznie w 144 rdzenie Neoverse. NVIDIA ujawniła obecny wynik wydajności w teście SPECrate@2017_int_base. Obecna wersja platformy uzyskała wynik na poziomie 740 punktów, co jest o 2.5x lepszym rezultatem w porównaniu do platformy NVIDIA Grace, ujawnionej w kwietniu ubiegłego roku. Co ciekawe, obecna wersja platformy Grace CPU SUPERCHIP w tym samym teście wydajności jest raptem o 13% słabsza od procesora AMD EPYC 7763 w konfiguracji Dual-Socket, a więc korzystającej ze 128 rdzeni Zen 3. Premiera NVIDIA Grace Hopper SUPERCHIP oraz NVIDIA Grace CPU SUPERCHIP odbędzie się jednak dopiero w pierwszej połowie 2023 roku. Na razie układy w dalszym ciągu są w fazie projektowania.