NVIDIA H100 NVL - akcelerator GPU oparty na architekturze Hopper i przygotowany z myślą o popularnym ChatGPT
Od czasu zaprezentowania ChatGPT popyt na niego nie maleje. Można się spodziewać, że jego popularność będzie tylko rosnąć, a już szczególnie jeśli mówimy o obecnym roku. W związku z dynamicznie zmieniającą się sytuacją i dużym zapotrzebowaniem na moc obliczeniową NVIDIA wprowadza procesor graficzny H100 NVL. Oparty jest on na na rdzeniach Tensor czwartej generacji oraz dwóch układach H100. Łączną pamięć nowego GPU wynosi aż 188 GB HBM3.
W związku z bardzo dynamicznym rozwojem ChatGPT NVIDIA wprowadza nowe procesory graficzne H100 NVL, które oferują 12-krotnie większą wydajność niż zeszła generacja akceleratorów A100 Ampere.
OpenAI zaprezentowało następcę ChatGPT. Model GPT-4 ma znacznie większe możliwości, w tym multimedialne. Rozumie nawet memy
Z samymi układami H100 opartymi na architekturze Hopper mamy do czynienia już od jakiegoś czasu. GPU NVIDIA H100 NVL zbudowany jest z dwóch układów H100, z których każdy posiada 94 GB pamięci HBM3 (łącznie 188 GB VRAM). O ile dotychczasowy akcelerator H100 posiadał 5 aktywnych stosów HBM z sześciu teoretycznie dostępnych, tak dopiero zaprezentowany dzisiaj H100 NVL posiada faktycznie 6 odblokowanych stosów, co przekłada się również na wykorzystanie szerszej magistrali 6144-bit zamiast 5120-bit. Przeznaczeniem H100 NVL jest obsługa dużych modeli językowych (LLM). Są idealnie dostosowane pod ChatGPT, który posiada 175 miliardów parametrów. NVIDIA chwali się, że obecne procesory graficzne są aż 12 razy bardziej wydajne w obsłudze języka z taką liczbą parametrów niż poprzednia generacja DGX A100. Oznacza to, że każdy z nich jest w stanie obsłużyć modele LLM "w locie". To, co jeszcze je wyróżnia, to możliwość połączenia maksymalnie 256 układów H100 technologią NVLink. Metoda ta zapewnia przepustowość na poziomie 900 GB/s pomiędzy połączonymi układami, a więc 7-krotnie szybciej niż PCIe 5. generacji.
H100 SXM | H100 PCIe | H100 NVL | |
Architektura | Hopper | Hopper | Hopper |
Układ graficzny | GH100 | GH100 | 2x GH100 |
Tranzystory | 80 mld | 80 mld | 2x 80 mld (160 mld) |
FP64 | 34 TFLOPS | 26 TFLOPS | 68 TFLOPS |
FP64 Rdzeń Tensor | 67 TFLOPS | 51 TFLOPS | 134 TFLOPS |
FP32 | 67 TFLOPS | 51 TFLOPS | 134 TFLOPS |
TF32 Rdzeń Tensor | 989 TFLOPS | 756TFLOPS | 1,979 TFLOPS |
BFLOAT16 Rdzeń Tensor | 1,979 TFLOPS | 1,513 TFLOPS | 3,958 TFLOPS |
FP16 Rdzeń Tensor | 1,979 TFLOPS | 1,513 TFLOPS | 3,958 TFLOPS |
FP8 Rdzeń Tensor | 3,958 TFLOPS | 3,026 TFLOPS | 7,916 TFLOPS |
INT8 Rdzeń Tensor | 3,958 TOPS | 3,026 TOPS | 7,916 TOPS |
Pamięć GPU | 80 GB HBM3 (5,23 Gbps) | 80 GB HBM2e (3,2 Gbps) | 188 GB HBM3 (~5,1 Gbps) |
Magistrala pamięci | 5120-bit | 5120-bit | 6144-bit |
Przepustowość pamięci | 3,35 TB/s | 2 TB/s | 7,8 TB/s |
Dekodery | 7 NVDEC 7 JPEG |
7 NVDEC 7 JPEG |
14 NVDEC 14 JPEG |
Maksymalne TDP | Do 700 W (konfigurowalne) | 300 - 350 W (konfigurowalne) | 2 x 350 - 400 W (konfigurowalne) |
Multi-Instance GPU | Do 7 MIGS / 10 GB każdy | D 7 MIGS / 10 GB każdy | Do 14 MIGS 12 GB każdy |
"Form factor" | SXM | PCIe Dual-slot Chłodzone powietrzem |
2 x PCIe Dual-slot Chłodzone powietrzem |
Połączenia | NVLink: 900 GB/s PCIe Gen5: 128 GB/s |
NVLink: 600 GB/s PCIe Gen5: 128 GB/s |
NVLink: 900 GB/s PCIe Gen5: 128 GB/s |
NVIDIA AI Enterprise | Dodatkowo | Tak | Dodatkowo |
NVIDIA RTX 5000, RTX 4000, RTX 3500, RTX 3000, RTX 2000 Ada - nowe układy graficzne dla mobilnych stacji roboczych
Zastosowane rdzenie tensor pozwalają przyspieszyć wszystkie precyzje: od FP64 i TF32 po FP8. Takie rozwiązanie ma pomóc zwiększyć ogólną wydajność przy zmniejszonym zużyciu pamięci. Akceleratory NVIDIA H100 NVL są oparte o układy GH100, z tą różnicą, że umieszczono je na złączu PCIe. Oprócz tego, że GPU posiadają tak dużą ilość pamięci, są bardzo podobne do SXM5 H100. Natomiast GPU H100 PCIe jest od nich zauważalnie słabsze przez użycie wolniejszej pamięci HBM2e, zastosowanie mniejszej liczby rdzeni Tensor oraz taktowanie. Niestety nie mamy wglądu do pełnej specyfikacji, jednak widać, że nadchodzące układy będą jednymi z najmocniejszych opartych na architekturze Hopper. Oczywiście rozwiązania te są przeznaczone stricte pod serwery obliczeniowe, więc na półkach nie powinniśmy się ich spodziewać. Jeśli zaś chodzi o dostępność dla firm, to NVIDIA planuje wprowadzić akcelerator H100 NVL w drugiej połowie bieżącego roku.
Powiązane publikacje

NVIDIA GeForce RTX 5090 - zdiagnozowano możliwą przyczynę stopienia się konektora 12V-2x6. Wnioski nie są optymistyczne
86
AMD Radeon RX 7650 GRE nie jest kolejnym układem wydanym z okazji Roku Królika. Skrót GRE oznacza tutaj... Great Radeon Edition
37
NVIDIA GeForce RTX 4090 schłodzony klimatyzacją osiąga bardzo niskie temperatury. Nie, to nie Prima Aprilis...
70
NVIDIA GeForce RTX 5090 - pojawił się pierwszy potwierdzony przypadek stopionego złącza zasilającego 12V-2x6
183