NVIDIA GeForce RTX 5000 - Omówienie architektury Blackwell, działania wersji Founders Edition oraz wydajności w grach
Tegoroczne targi CES w Las Vegas stały przede wszystkim pod znakiem prezentacji nowej generacji kart graficznych NVIDIA GeForce RTX 5000, opartych na architekturze Blackwell. Sama konferencja Jensena Huanga nie była jednak jakaś przesadnie bogata w szczegóły dotyczące architektury czy specyfikacji. Garść dodatkowych informacji otrzymaliśmy podczas tzw. Editor's Day, w trakcie którego omawiano zarówno architekturę, jak również działanie nowego systemu chłodzenia dla wariantów Founders Edition.
Podczas Editor's Day, firma NVIDIA podzieliła się dodatkowymi szczegółami związanymi z architekturą Blackwell dla kart GeForce RTX 5000, działaniem systemu chłodzenia w wersjach Founders Edition oraz wydajnością w grach, także bez działającego DLSS 4.
NVIDIA GeForce RTX 5090, RTX 5080, RTX 5070 Ti oraz RTX 5070 - Prezentacja nowej generacji kart graficznych Blackwell
Architektura Blackwell dla konsumenckich kart graficznych NVIDIA GeForce RTX 5000 została zaprojektowana zarówno z myślą o utrzymaniu wysokiej efektywności energetycznej, jak również z myślą o intensywniejszym wykorzystaniu obliczeń neuronowych, nie tylko w kontekście rdzeni Tensor czy RT, ale także w klasycznych shaderach. Na początek otrzymamy karty oparte na jednym z trzech rdzeni: Blackwell GB202 (750 mm², 92.2 mld tranzystorów, 122.9 MTr/mm²), GB203 (378 mm², 45.6 mld tranzystorów, 120.6 MTr/mm²) oraz GB205 (263 mm², 31 mld tranzystorów, 117.9 MTr/mm²). Liczba milionów tranzystorów na milimetr kwadratowy w przypadku rdzenia GB202 jest niemal identyczny jak w przypadku AD102, pomimo że ten pierwszy jest znacznie większy. Jest to związane z zauważalnym wzrostem liczby tranzystorów - z 76 mld w AD102 do ponad 92 mld w GB202. Taki wzrost jest widoczny tylko w GB202. Pozostałe dwa rdzenie - GB203 oraz GB205 - mają albo praktycznie tyle samo tranzystorów (GB203 i AD103) lub nieco mniej (GB205 oraz AD104).
GeForce RTX 5090 | GeForce RTX 5080 | GeForce RTX 5070 Ti | GeForce RTX 5070 | |
Generacja | Blackwell | Blackwell | Blackwell | Blackwell |
Rdzeń | GB202-300 | GB203-400 | GB203-300 | GB205-300 |
Powierzchnia | 750 mm² | 378 mm² | 378 mm² | 263 mm² |
Tranzystory | 92.2 mld | 45.6 mld | 45.6 mld | 31 mld |
Litografia | TSMC 4N (5 nm) | TSMC 4N (5 nm) | TSMC 4N (5 nm) | TSMC 4N (5 nm) |
Bloki SM | 170 | 84 | 70 | 48 |
Rdzenie CUDA | 21760 | 10752 | 8960 | 6144 |
Rdzenie RT | 170 (4. gen) | 84 (4. gen) | 70 (4. gen) | 48 (4. gen) |
Rdzenie Tensor | 680 (5. gen) | 336 (5. gen) | 280 (5. gen) | 192 (5. gen) |
ROP | 192 | 112 | 96 | 64 |
TMU | 680 | 336 | 280 | 192 |
Cache L2 | 88 MB | 64 MB | 64 MB | 40 MB |
Taktowanie bazowe | 2010 MHz | 2300 MHz | 2300 MHz | 2160 MHz |
Taktowanie Boost | 2410 MHz | 2620 MHz | 2450 MHz | 2510 MHz |
Moc FP32 (TFLOPS) | 105 TFLOPS | 56 TFLOPS | 44 TFLOPS | 31 TFLOPS |
Moc RT (TFLOPS) | 318 RT TFLOPS | 171 RT TFLOPS | 133 RT TFLOPS | 94 RT TFLOPS |
Moc AI (TOPS) | 3352 AI TOPS | 1801 AI TOPS | 1406 AI TOPS | 988 AI TOPS |
Pamięć VRAM | 32 GB GDDR7 | 16 GB GDDR7 | 16 GB GDDR7 | 12 GB GDDR7 |
Szybkość pamięci | 28 Gbps | 30 Gbps | 28 Gbps | 28 Gbps |
Magistrala VRAM | 512-bit | 256-bit | 256-bit | 192-bit |
Przepustowość | 1792 GB/s | 960 GB/s | 896 GB/s | 672 GB/s |
Zasilanie | 1x 12V-2x6 16-pin | 1x 12V-2x6 16-pin | 1x 12V-2x6 16-pin | 1x 12V-2x6 16-pin |
Złącza | 3x DisplayPort 2.1b 1x HDMI 2.1 |
3x DisplayPort 2.1b 1x HDMI 2.1 |
3x DisplayPort 2.1b 1x HDMI 2.1 |
3x DisplayPort 2.1b 1x HDMI 2.1 |
DLSS | DLSS 4 | DLSS 4 | DLSS 4 | DLSS 4 |
Wymiary (Founders Edition) | 304 mm (długość) 137 mm (szerokość) |
304 mm (długość) 137 mm (szerokość) |
- | 242 mm (długość) 112 mm (szerokość) |
TDP | 575 W | 360 W | 300 W | 250 W |
Cena | Od 10 299 złotych | Od 5199 złotych | Od 3899 złotych | Od 2849 złotych |
Premiera | 30 stycznia 2025 | 30 stycznia 2025 | Luty 2025 | Luty 2025 |
NVIDIA GeForce RTX 5090 Laptop GPU, RTX 5080 Laptop GPU, RTX 5070 Ti Laptop GPU - Zapowiedź układów Blackwell dla laptopów
Architektura Blackwell wprowadza zmodyfikowane bloki SM względem Ady Lovelace, głównie w kontekście budowy shaderów. Jeszcze w poprzedniej generacji, blok SM posiadał 64 jednostki arytmetyczne dla obliczeń FP32 (pojedynczej precyzji) oraz 64 jednostki umożliwiające przeprowadzanie obliczeń zarówno dla FP32 jak i INT32. W przypadku architektury Blackwell, dostajemy 128 jednostek arytmetycznych, działających w zakresie obliczeń FP32 oraz INT32. Blackwell, podobnie jak Ada Lovelace, wspiera również funkcję SER, czyli Shader Execution Reordering, umożliwiającą maksymalne efektywne zarządzanie zasobami klasycznych shaderów w obliczeniach związanych z Ray Tracingiem. Celem SER jest połączenie obciążenia klasycznych jednostek cieniujących oraz rdzeni Tensor. W przypadku architektury Blackwell, funkcjonalność SER została dopracowana, dzięki czemu jej wydajność może być dwukrotnie wyższa w porównaniu do poprzedniej generacji. Oczywiście w dalszym ciągu z SER skorzystają tylko te gry, w których funkcja zostanie zaimplementowana przez developerów.
NVIDIA GB202 | NVIDIA AD102 | NVIDIA GB203 | NVIDIA AD103 | NVIDIA GB205 | NVIDIA AD104 | |
Powierzchnia | 750 mm² | 608 mm² | 378 mm² | 378 mm² | 263 mm² | 294 mm² |
Tranzystory | 92.2 mld | 76 mld | 45.6 mld | 45.9 mld | 31 mld | 35.8 mld |
Gęstość upakowania tranzystorów | 122.9 MTr/mm² | 124.9 MTr/mm² | 120.6 MTr/mm² | 121.2 MTr/mm² | 117.9 MTr/mm² | 121.6 MTr/mm² |
Wydajność FP32 (TFLOPS) | Wydajność RT (TFLOPS) | Wydajność AI (TOPS) | |
GeForce RTX 5090 | 105 TFLOPS (Blackwell) | 318 TFLOPS (RT 4.gen) | 3352 TOPS (Tensor 5.gen) |
GeForce RTX 4090 | 83 TFLOPS (Ada) | 191 TFLOPS (RT 3.gen) | 1321 TOPS (Tensor 4.gen) |
GeForce RTX 5080 | 56 TFLOPS (Blackwell) | 171 TFLOPS (RT 4.gen) | 1801 TOPS (Tensor 5.gen) |
GeForce RTX 4080 | 49 TFLOPS (Ada) | 113 TFLOPS (RT 3.gen) | 780 TOPS (Tensor 4.gen) |
GeForce RTX 5070 Ti | 44 TFLOPS (Blackwell) | 133 TFLOPS (RT 4.gen) | 1406 TOPS (Tensor 5.gen) |
GeForce RTX 4070 Ti | 40 TFLOPS (Ada) | 93 TFLOPS (RT 3.gen) | 641 TOPS (Tensor 4.gen) |
GeForce RTX 5070 | 31 TFLOPS (Blackwell) | 94 TFLOPS (RT 4.gen) | 988 TOPS (Tensor 5.gen) |
GeForce RTX 4070 | 29 TFLOPS (Ada) | 67 TFLOPS (RT 3. gen) | 466 TOPS (Tensor 4.gen) |
NVIDIA GeForce RTX 50 - przegląd niereferencyjnych kart graficznych. Oto wszystkie zapowiedziane modele
Zachowanie wysokiej efektywności energetycznej jest możliwe także poprzez użycie pamięci GDDR7. Nowa generacja VRAM wykorzystuje modulację PAM-3 zamiast starszej PAM-4, pozwalając na utrzymanie znacznie wyższych częstotliwości pracy przy jednoczesnym zachowaniu lepszej integralności sygnału oraz niższym napięciu. GDDR7 jest zresztą jedną z technologii, będącej częścią Blackwell Max-Q (tutaj bardziej pod kątem laptopów). W przypadku kart GeForce RTX 5000, które debiutują najwcześniej, pamięć GDDR7 będzie pracować z efektywną szybkością od 28 do 30 Gbps, znacząco zwiększając przepustowość.
DLSS 4 przetestowany w grze Cyberpunk 2077 na karcie NVIDIA GeForce RTX 5080. Wnioski? Duża poprawa jakości skalowania
Architektura Ada Lovelace wprowadziła w 3. generacji rdzeni RT m.in. wydajniejsze silniki Box Intersection oraz Triangle Intersection, a także nowy silnik Opacity Mircomap. W przypadku 4. generacji rdzeni RT w architekturze Blackwell, na swoim miejscu pozostają silniki Box Intersection oraz Opacity Micromap. Zamiast dotychczasowego silnika Triangle Intersection (przecięcia trójkątów), wprowadzony został silnik Triangle Cluster Intersection (przecięcia klastrów trójkątów), który zoptymalizowano pod kątem efektywniejszego wykorzystania technologii Mega Geometry. Nowością jest również blok Linear Swept Spheres, który przyspiesza obliczenia związane z renderowaniem włosów oraz futra za pomocą Ray Tracingu (RTX Hair oraz RTX Fur). Rdzenie RT 4. generacji są w stanie obliczyć dwukrotnie więcej przecięć promieni w porównaniu do rdzeni RT 3. generacji (Ada) i aż 8-krotnie w porównaniu do pierwszej generacji w układach Turing (GeForce RTX 2000). Wyraźny wzrost wydajności jest widoczny już po mocy obliczeniowej, wyrażanej w TFLOPS-ach. Karty GeForce RTX 5000 mają tutaj znacznie wyższą wydajność w porównaniu do kart z rodziny GeForce RTX 4000.
NVIDIA DLSS 4 wprowadzi Multi Frame Generation oraz Reflex 2. Technika trafi wyłącznie do kart GeForce RTX 5000
Zmodyfikowane zostały także rdzenie Tensor 5. generacji, które teraz mogą wykonywać obliczenia dla formatu FP4. W dodatku, dzięki ulepszonej funkcji SER, nowe Tensory są w stanie dostarczać części mocy obliczeniowej do neuronowych shaderów. Te ostatnie będą wykorzystywane z kolei do następujących technik: RTX Neural Texture Compression, RTX Neural Materials oraz RTX Neural Radiance Cache. Same rdzenie Tensor 5. generacji obsługują również Multi Frame Generation, jako najważniejszą nowość techniki DLSS 4. Między innymi dzięki obsłudze obliczeń FP4, wydajność nowych Tensorów (wyrażana w TOPS) wzrosła ponad dwukrotnie w porównaniu do Tensorów 4. generacji. Różnice pomiędzy poszczególnymi kartami graficznymi zostały przedstawione w powyższej tabeli.
DOOM The Dark Ages otrzyma na premierę Path Tracing. Wiedźmin 4 skorzysta z najnowszych technologii NVIDIA RTX
Architektura Blackwell przynosi również 6. generację technik Max-Q, z których chętnie skorzystają producenci laptopów. Oprócz DLSS 4 czy pamięci GDDR7 ze zoptymalizowanym napięciem, kolejna generacja Max-Q wprowadza takie technologie jak na przykład Advanced Power Gating (nowa technologia bramkowania mocy znacząco zmniejsza zużycie mocy poprzez szybkie wyłączanie nieaktywnych części GPU lub systemu pamięci, w ten sposób pozwalając zaoszczędzić energię). Architektura Blackwell wprowadza również dodatkową szynę, oddzielającą rdzeń od systemu pamięci, dzięki czemu możliwe jest ustawianie oddzielnych napięć, co z kolei pozwala na dodatkowe zwiększenie wydajności w ramach tego samego budżetu energetycznego. Nowością jest także Low Latency Sleep. Wprowadzenie szybkich, ultraniskich stanów uśpienia pozwala na znacznie szybsze przejście układu graficznego w laptopie do stanu uśpienia, wydłużając czas pracy na zasilaniu akumulatorowym. Według deklaracji NVIDII, Low Latency Sleep pozwoli na wydłużenie tego czasu o 40% w porównaniu do notebooków z układami GeForce RTX 4000 Laptop GPU. Ostatnią nowością jest Accelerated Frequency Switching, której celem jest zwiększenie wydajności poprzez adaptacyjną optymalizację zegarów dla każdego unikalnego obciążenia GPU w prędkością mikrosekund. Architektura Blackwell pozwoli na znacznie wyższe, rzeczywiste zegary przy aktywnie działającym układzie GPU w porównaniu do architektury Ada Lovelace. Różnice mogą sięgać nawet 300 MHz.
NVIDIA RTX Kit - neuronowe renderowanie w praktyce. Czy czeka nas kolejny skok w jakości grafiki w grach?
Zmiany dotknęły również silnika wideo. Karty graficzne GeForce RTX 5000 wprowadzają m.in. kodery NVENC 9. generacji oraz dekodery 6. generacji, umożliwiające dekodowanie wideo użyciem kodeka AV1 i w wyższej jakości, określanej jako UHQ (Ultra High Quality). Architektura Blackwell umożliwi również dekodowanie MV-HEVC (Multi-View HEVC), co przyda się chociażby w aplikacjach przygotowywanych pod wirtualną rzeczywistość (VR). Silnik wideo w generacji Blackwell pozwala także na dekodowanie i kodowanie materiałów wideo z próbkowaniem 4:2:2, co nie było możliwe w poprzedniej generacji. Na koniec pozostaje również obsługa najnowszego standardu DisplayPort 2.1b UHBR20 o przepustowości niespełna 80 Gb/s. Karty GeForce RTX 5000 w wersjach Founders Edition oferują po 3 porty DisplayPort 2.1b UHBR20 i jedno złącze HDMI 2.1.
NVIDIA GeForce RTX 5080 Laptop GPU w pierwszym teście wydajności wypada lepiej niż GeForce RTX 4090 Laptop GPU
Będąc przy temacie kart GeForce RTX 5000 Founders Edition, zatrzymajmy się na chwilę, by omówić nowy system chłodzenia, jaki został tutaj wykorzystany. Sama NVIDIA wskazuje, że projekt jest naturalnym rozwinięciem wcześniejszych pomysłów, które konsekwentnie wprowadzano od czasu układów GeForce GTX 10 (Pascal). Modele GeForce RTX 2000 Founders Edition wprowadzały konstrukcję dwuosiową. Później rozwinięto to do pomysłu dwuosiowych konstrukcji przepływowych, gdzie jeden wentylator umieszczony był z przodu, a jeden z tyłu (serie GeForce RTX 3000 i GeForce RTX 4000). Wraz z kolejnymi generacjami, coraz bardziej zwiększano jednak rozmiary chłodzenia. Przy modelach GPU z generacji Ada Lovelace, karty zajmowały już przynamniej trzy sloty PCIe. Najnowsza generacja Blackwell przywraca jednak rozmiary 2-slotowe. Nowy system, mimo że dużo bardziej kompaktowy, ma w dalszym ciągu charakteryzować się efektywnym rozprowadzaniem ciepła.
DirectX obsłuży renderowanie neuronowe na kartach NVIDIA GeForce RTX z serii 50. Nowy mechanizm dla rdzeni Tensor
Wewnątrz znajdziemy m.in. komorę parową, umieszczoną dokładnie nad wyjątkowo kompaktową płytką drukowaną. Komora ta pobiera ciepło z rdzenia GPU, pamięci GDDR7 oraz sekcji zasilania, po czym rozprowadza je do pięciu ciepłowodów. Te z kolei są przymocowane do radiatorów, rozmieszczonych po bokach, zbudowanych z aluminiowych żeber. Środkowy radiator z kolei połączony jest z komorą parową. Na końcu mamy dwa wentylatory osiowe, wtłaczające powietrze przez żebra radiatorów. Nowy system chłodzenia ma przede wszystkim odznaczać się wyjątkowo wysoką kulturą pracy, znacznie lepszą w porównaniu do poprzednich generacji Founders Edition. Nowe karty mają pracować w zakresie od 30 do 35 dB(A) przy obciążeniu maksymalnie 600 W. Dla porównania karty Founders Edition z generacji Turing (GeForce RTX 2000) charakteryzowały się głośnością do 50 dB(A) przy obciążeniu 300 W, z kolei poprzednia generacja osiągała podobną kulturę pracy przy poborze mocy 400 - 450 W. Jeśli nowe karty GeForce RTX 5000 Founders Edition, a zwłaszcza GeForce RTX 5090, faktycznie będą się odznaczać głośnością nieprzekraczającą 35 dB(A), a jednocześnie temperatury będą utrzymywane na akceptowalnym poziomie, wówczas będziemy mieli do czynienia z wyjątkowo atrakcyjnymi modelami kart.
Na koniec jeszcze omówimy to, co NVIDIA deklaruje w kontekście wydajności kart GeForce RTX 5000 w porównaniu do poprzedników. Tak jak już wspominaliśmy w momencie samej prezentacji, największe skoki wydajności będą widoczne tylko w sytuacji, gdy na nowszej karcie Blackwell uruchomimy Multi Frame Generation, będącą częścią techniki DLSS 4. Jako że karty GeForce RTX 4000 obsługują Frame Generation maksymalnie w formacie x2 (jedna dodatkowa klatka na jedną wyrenderowaną), różnice będą najbardziej odczuwalne. Bez pomocy DLSS, za to z włączonym Ray Tracingiem, wydajność topowego modelu GeForce RTX 5090 ma być o jakieś 30% wyższa w porównaniu do GeForce RTX 4090. Niestety, ale bez posiłkowania się DLSS 4 (zwłaszcza z MFG), topowy Blackwell będzie miał problemy z uzyskaniem ponad 30 klatek na sekundę w natywnym 4K i w maksymalnych ustawieniach graficznych z włączonym Path Tracingiem.
Jeszcze niższe różnice będą pomiędzy GeForce RTX 5080 oraz GeForce RTX 4080. W tym wypadku mowa o różnicy około 15% na korzyść układu Blackwell, jeżeli nie będziemy posiłkować się Multi Frame Generation. Oczywiście nowe karty będą zyskiwać chociażby w lepszym wykorzystaniu funkcji RTX Neural Shading/Rendering, o których wspominaliśmy wcześniej. Jeśli chodzi o GeForce RTX 5070 Ti oraz GeForce RTX 5070, wzrost wydajności z włączonym RT ale bez DLSS 4 (a więc i bez MFG) względem GeForce RTX 4070 Ti oraz GeForce RTX 4070 wyniesie około 20%. Jak widać, najmniejsze różnice szykują się w przypadku GeForce RTX 5080.
Pojawiło się także porównanie dla mobilnych układów GeForce RTX 5000, jednak w tym wypadku NVIDIA zdecydowała się ograniczyć porównanie do GeForce RTX 5080 Laptop GPU kontra GeForce RTX 4080 Laptop GPU. Różnica w wydajności z Ray Tracingiem, ale bez jakiejkolwiek formy DLSS ma wynosić 15%, a więc podobnie jak przy porównaniu desktopowych kart graficznych. Dopiero aktywacja Multi Frame Generation w trybie 4x pozwala na osiągnięcie blisko 2-krotnie lub ponad 2-krotnie lepszych osiągów w grach lub programach, które z możliwości DLSS lub rdzeni Tensor faktycznie korzystają (jak chociażby D5 Render czy generatywna AI). Laptopy mają zyskać na pewno na nowych funkcjonalnościach Blackwell Max-Q, które pozwolą chociażby wydłużyć czas pracy na zasilaniu akumulatorowym.
Powiązane publikacje

Test Warhammer 40,000: Space Marine 2 PC kontra PlayStation 5. Jakość technik NVIDIA DLSS i AMD FSR, skalowanie wydajności
38
Test Black Myth: Wukong na karcie graficznej NVIDIA GeForce RTX 4080. Ta gra zmasakruje Wasze komputery
108
Pięć lat temu Battlefield V wprowadził ray tracing do świata gier komputerowych. Jak dzisiaj wyglądają wymagania sprzętowe gry?
49
NVIDIA LDAT - Nowa metoda mierzenia wydajności kart graficznych
66