Zgłoś błąd
X
Zanim wyślesz zgłoszenie, upewnij się że przyczyną problemów nie jest dodatek blokujący reklamy.
Błędy w spisie treści artykułu zgłaszaj jako "błąd w TREŚCI".
Typ zgłoszenia
Treść zgłoszenia
Twój email (opcjonalnie)
Nie wypełniaj tego pola
.
Załóż konto
EnglishDeutschукраїнськийFrançaisEspañol中国

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W

Damian Marusiak | 22-03-2022 18:40 |

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 WOd tygodni pojawiały się w sieci informacje na temat nowej generacji akceleratorów GPU do zaawansowanych obliczeń dla rynku HPC oraz AI od firmy NVIDIA. Od dawna wiedzieliśmy, że architektura Ampere na tym rynku zostanie zastąpiona przez architekturę Hopper. Dzisiaj odbywa się konferencja producenta w ramach GPU Technology Conference, podczas której omówiono zarówno wspomnianą architekturę Hopper (nazwa na cześć pionierki informatyki - Grace Hopper), przygotowanej z myślą nie tylko o rynku HPC, ale przede wszystkim z myślą o coraz bardziej zaawansowanych obliczeniach opartych na sztucznej inteligencji. Poznaliśmy także szczegóły akceleratora NVIDIA H100 i nie zabrakło kilku niespodzianek. Nowy układ GPU faktycznie wykorzysta litografię TSMC, ale nie 5 nm.

Podczas konferencji GTC 2022, NVIDIA oficjalnie zaprezentowała akcelerator graficzny H100, oparty na architekturze Hopper. Wykorzystuje litografię TSMC 4 nm (N4), posiada 80 miliardów tranzystorów oraz 80 GB pamięci HBM3. Współczynnik TDP jest jednak bardzo wysoki - sięga aż 700 W.

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

AMD Instinct MI210 - nowy akcelerator na architekturze CDNA 2 dla rynku HPC oraz AI. Na pokładzie 64 GB HBM2e

Poznaliśmy w końcu szereg informacji na temat architektury Hopper oraz akceleratora NVIDIA H100, który będzie jego sercem. Według deklaracji NVIDII, nowa architektura jest największym skokiem technologicznym oraz wydajnościowym w historii firmy. Hopper wykorzystuje niestandardowy (co jest wyraźnie podkreślane) proces technologiczny TSMC N4, a akcelerator NVIDIA H100 oferowany będzie zarówno w formie SXM5, jak również PCIe 5.0 (pierwszy profesjonalny układ, wykorzystujący standard PCIe 5.0 o znacznie wyższej przepustowości danych - mowa o dwukrotnym wzroście względem PCIe 4.0 - 128 GB/s zamiast 64 GB/s). Rdzeń NVIDIA GH100 posiada także 80 miliardów tranzystorów. Ponownie wersje H100 SXM5 oraz PCIe 5.0 różnią się specyfikacją. Bardziej dopakowany, ale i zauważalnie bardziej prądożerny H100 SXN5 oferuje 132 aktywne bloki SM (Streaming Multiprocessor). Wersja PCIe 5.0 ma z kolei 114 aktywnych bloków SM. Dla przypomnienia - pełny rdzeń GH100 oferuje 144 SM, więc żadna wersja akceleratora NVIDIA H100 nie oferuje w pełni sprawnego układu GPU. Pełny GH100 posiada także 60 MB pamięci cache L2, z czego NVIDIA H100 SXM5 wykorzystuje 50 MB. Cały układ NVIDIA GH100 ma powierzchnię 814 mm² i posiada 18432 rdzeni CUDA FP32.

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

  NVIDIA H100 PCIe AMD Instinct MI250 AMD Instinct MI250X NVIDIA A100
Architektrura Hopper CDNA 2 CDNA 2 Ampere
Budowa Monolit MCM MCM Monolit
Litografia TSMC N4 TSMC N6 TSMC N6 TSMC N7
Tranzystory 80 mld 58,2 mld 58,2 mld 54,2 mld
Bloki CU/SM 114 208 220 108
Procesory 14592 13312 14080 6912
Rdzenie Matrix - 832 880 -
Rdzenie Tensor 456 (4 per SM) - - 432 (4 per SM)
Taktowanie Boost Brak informacji 1700 MHz 1700 MHz 1410 MHz
Moc FP32 48,0 TFLOPS 45,3 TFLOPS 47,9 TFLOPS 19,5 TFLOPS
Moc FP32 Matrix - 90,5 TFLOPS 95,7 TFLOPS -
Moc FP64 24,0 TFLOPS 45,3 TFLOPS 47,9 TFLOPS 9,7 TFLOPS
Moc FP64 Matrix - 90,5 TFLOPS 95,7 TFLOPS -
Pamięć 80 GB HBM3 128 GB HBM2e 128 GB HBM2e Do 80 GB HBM2e
Magistrala 5120-bit 8192-bit 8192-bit 5120-bit
Przepustowość 2 TB/s 3,2 TB/s 3,2 TB/s 1,6 TB/s
Pobór energii 350 W 560 W 560 W 400 W
  NVIDIA H100 SXM5 NVIDIA H100 PCIe NVIDIA A100 SXM4
Architektura Hopper Hopper Ampere
Litografia TSMC N4 TSMC N4 TSMC N7
Liczba bloków SM 132 114 108
Liczba tranzystorów 80 mld 80 mld 54,2 mld
Liczba rdzeni CUDA FP32 16896 14592 6912
Liczba rdzeni CUDA FP64 8448 7296 3456
Rdzenie Tensor 4. generacji 528 456 432 (3. generacji)
Taktowanie rdzenia ? ? 1410 MHz
Moc FP16 (peak) 120 TFLOPS 96 TFLOPS 78 TFLOPS
Moc FP32 (peak) 60 TFLOPS 48 TFLOPS 19,5 TFLOPS
Moc FP64 (peak) 30 TFLOPS 24 TFLOPS 9,7 TFLOPS
TF32 Tensor TFLOPS 500/1000 TFLOPS 400/800 TFLOPS 156/312 TFLOPS
FP64 Tensor TFLOPS 60 TFLOPS 48 TFLOPS 19,5 TFLOPS
INT8 Tensor TOPS 2000/4000 TOPS 1600/3200 TOPS 624/1248 TOPS
Jednostki teksturujące 528 456 432
Pamięć VRAM 80 GB HBM3 80 GB HBM3 40/80 GB HBM2e
Magistrala 5120-bit 5120-bit 5120-bit
Przepustowość 3 TB/s 2 TB/s 1,6 TB/s
Przepustowość połączeń NVLink: 900 GB/s
PCIe 5.0: 128 GB/s
NVLink: 600 GB/s
PCIe 5.0: 128 GB/s
NVLink: 600 GB/s
PCIe 4.0: 64 GB/s
TDP 700 W 350 W 400 W

AMD Instinct MI250X oraz EPYC Milan-X - modułowe GPU oraz serwerowe procesory z pamięcią 3D V-Cache już oficjalnie

Finalnie potwierdziły się informacje odnośnie układu GH100 - nie będzie to układ o budowie MCM, a zwykły monolit. NVIDIA H100 SMX5 będzie posiadać łącznie 15872 rdzenie CUDA FP32 (128 na każdy blok SM, tutaj nic się nie zmienia względem Ampere), z kolei NVIDIA H100 PCIe będzie posiadać łącznie 14592 rdzenie CUDA FP32. W przypadku obliczeń FP64, mowa o odpowiednio 8448 oraz 7296 rdzeniach CUDA. W obu przypadkach jest to ponad dwukrotnie więcej w porównaniu do akceleratora A100 (6912 rdzeni CUDA FP32 oraz 3456 rdzeni CUDA FP64). Od samego początku układy będą dostępne z 80 GB pamięci typu HBM3. NVIDIA wykorzysta zatem najszybsze obecnie kości pamięci. W obu wersjach akceleratora, wykorzystana zostanie magistrala 5120-bitowa, aczkolwiek wersja SMX5 zaoferuje znacznie wyższą przepustowość, sięgającą imponujących 3 TB/s. Dla wariantu PCIe 5.0 będzie to 2 TB/s. Dla porównania A100 oferuje przepustowość 1,6 TB/s. NVIDIA H100 SMX5 może poszczycić się także znacznie wyższą przepustowością połączeń dla interfejsu NVLink - 900 GB/s dla H100 (600 GB/s dla A100). Wszystko to jednak okupione zostanie znacznie wyższym współczynnikiem TDP dla wersji SMX5. Wynosi on bowiem aż 700 W, podczas gdy A100 SMX4 miał TDP 400 W. Dla porównania wersja PCIe 5.0 będzie również nieco bardziej prądożerna od poprzednika - 350 W dla H100 vs 250 W dla A100 40 GB oraz 300 W dla A100 80 GB.

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

NVIDIA Hopper GH100 - nowe informacje o budowie oraz specyfikacji układu graficznego kolejnej generacji

Architektura Hopper została przygotowana ściśle pod obliczenia związane ze sztuczną inteligencją - kilkukrotne wzrosty wydajności w obliczeniach przy wykorzystaniu rdzeni Tensor 4. generacji mówią same za siebie. Jedną z kluczowych cech Hoppera jest wsparcie dla dynamicznego programowania (Dynamic Programming) - nauce powstałej w latach 50. ubiegłego wieku, w której kluczową rolę odgrywają dwie techniki: rekurencji oraz memoizacji. Rekursja polega na rozbiciu problemu na prostsze podproblemy, co pozwala zaoszczędzić czas i wysiłek obliczeniowy. W memoizacji przechowuje się odpowiedzi na te podproblemy, które są wielokrotnie wykorzystywane podczas rozwiązywania głównego problemu. Architektura Hopper robi także użytek z nowego typu instrukcji - DPX - których głównym celem jest przyspieszenie działania algorytmów dla dynamicznego programowania. Jeden akcelerator NVIDIA H100 uzyskuje w ten sposób 7-krotnie przyspieszenie w tego typu obliczeniach w porównaniu do akceleratora poprzedniej generacji w postaci NVIDIA A100.

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

NVIDIA Ada, Hopper oraz Blackwell - nowe informacje na temat nadchodzących kart graficznych dla PC oraz HPC

Kolejną nowością, wykorzystaną w architekturze Hopper, jest wbudowany układ o nazwie Confidential Computing. Jego najważniejszym zadaniem jest ochrona danych użytkowników, zabezpieczenie serwerów przed atakami sprzętowymi oraz programowymi, a także lepszą izolację i ochronę maszyn wirtualnych w środowiskach zwirtualizowanych oraz MIG. Jest to bardzo ważna nowość, ponieważ akcelerator NVIDIA H100 jest pierwszym GPU na świecie, który implementuje natywny chip Confidential Computing - dotychczas podobne rozwiązania widywaliśmy wyłącznie w zwykłych procesorach. NVIDIA Hopper wprowadza także obsługę połączeń NVLink 4. generacji, znacząco zwiększając przepustowość - z 600 do 900 GB/s.

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

NVIDIA zapowiada konferencję na GTC 2022 hasłem Hopped Up. Prezentacja nowej architektury GPU Hopper już za kilka dni

Wraz z prezentacją akceleratora NVIDIA H100, pokazano także kompletne stacje robocze, na bazie których można stworzyć wydajne serwery do obliczeń m.in. opartych na sztucznej inteligencji. Pierwszy to system DGX H100, w którym umieszczono osiem akceleratorów graficznych NVIDIA A100, wyposażonych w łącznie 640 GB pamięci HBM3, 640 miliardów tranzystorów oraz z mocą obliczeniową na poziomie 32 PFLOPS (dla AI). Łączna przepustowość takiego zestawu wynosi 24 TB/s. Na bazie DGX H100, producent zaprezentował także dwie ogromne stacje obliczeniowe: DGX POD H100 oraz NVIDIA EOS. Ten pierwszy może oferować do 1 exaflopa mocy obliczeniowej w zadaniach opartych o AI oraz posiada 20 TB pamięci HBM3. NVIDIA EOS, będąca czymś w rodzaju superkomputera, składa się z 18 stacji obliczeniowych DGX POD H100. Według producenta, EOS jest najwydajniejszym systemem na świecie, jeśli chodzi o obliczenia AI. We wstępnych porównaniach wydajności, architektura Hopper dosłownie niszczy akcelerator A100, oparty na architekturze Ampere. Wyspecjalizowane obliczenia trwają nawet wielokrotnie krócej, co skraca czas potrzebny na wykonywanie zadań z dni do godzin. Wszystkie platformy oparte o układy NVIDIA H100 będą dostępne w trzecim kwartale roku.

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

NVIDIA Grace - prezentacja nowego SoC z rdzeniami Neoverse. Ponadto premiera następcy architektury Ampere w 2022 roku

Podczas konferencji nie zabrakło także aktualizacji dotyczącej projektu NVIDIA Grace, który po drodze przechrzczono na NVIDIA Grace Hopper SUPERCHIP oraz NVIDIA Grace CPU SUPERCHIP. Ten pierwszy jest połączeniem układu GPU Hopper oraz procesora ARM Grace, składającego się z rdzeni Neoverse. Drugi projekt to połączone mostkiem NVLink dwa procesory Grace, wspierane pamięcią typu LPDDR5X o przepustowości sięgającej 1 TB/s i z aktywną korekcją błędów ECC. NVIDIA Grace Hopper SUPERCHIP jest platformą stworzoną do zaawansowanych obliczeń dla HPC oraz AI. Kombinacja ta posiada m.in. 600 GB pamięci GPU oraz interfejs NVLink do sprawnej komunikacji o przepustowości 900 GB/s. Drugą platformą jest NVIDIA Grace CPU SUPERCHIP, przygotowany z myślą o obsłudze infrastruktury HPC oraz AI. W tym wypadku mowa o dwóch procesorach ARM, wyposażonych łącznie w 144 rdzenie Neoverse. NVIDIA ujawniła obecny wynik wydajności w teście SPECrate@2017_int_base. Obecna wersja platformy uzyskała wynik na poziomie 740 punktów, co jest o 2.5x lepszym rezultatem w porównaniu do platformy NVIDIA Grace, ujawnionej w kwietniu ubiegłego roku. Co ciekawe, obecna wersja platformy Grace CPU SUPERCHIP w tym samym teście wydajności jest raptem o 13% słabsza od procesora AMD EPYC 7763 w konfiguracji Dual-Socket, a więc korzystającej ze 128 rdzeni Zen 3. Premiera NVIDIA Grace Hopper SUPERCHIP oraz NVIDIA Grace CPU SUPERCHIP odbędzie się jednak dopiero w pierwszej połowie 2023 roku. Na razie układy w dalszym ciągu są w fazie projektowania.

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W [nc1]

Źródło: NVIDIA
Bądź na bieżąco - obserwuj PurePC.pl na Google News
Zgłoś błąd
Liczba komentarzy: 52

Komentarze:

x Wydawca serwisu PurePC.pl informuje, że na swoich stronach www stosuje pliki cookies (tzw. ciasteczka). Kliknij zgadzam się, aby ta informacja nie pojawiała się więcej. Kliknij polityka cookies, aby dowiedzieć się więcej, w tym jak zarządzać plikami cookies za pośrednictwem swojej przeglądarki.