AMD RDNA 4 - Omówienie architektury GPU dla nadchodzących kart graficznych Radeon RX 9070 XT i Radeon RX 9070
AMD wreszcie ujawnia zmiany w architekturze RDNA 4, które będą obecne w nadchodzących kartach graficznych. Dzięki ulepszonemu raytracingowi, nowym technikom kompresji oraz zoptymalizowanemu dostępowi do pamięci VRAM, karty Radeon RX 9070 XT i Radeon RX 9070 mogą stanowić poważną konkurencję dla modeli NVIDIA GeForce RTX 4000 i 5000... przynajmniej sądząc na podstawie oficjalnych slajdów i wprowadzonych zmian w architekturze RDNA 4.
Architektura AMD RDNA 4 obecna w nadchodzących kartach graficznych Radeon RX 9070 XT i Radeon RX 9070, została znacznie ulepszona w porównaniu z poprzednią generacją RDNA 3. Zmiany obejmują zwiększenie wydajności w raytracingu i obliczeniach AI, a także poprawę w rasteryzacji.
Monster Hunter Wilds za darmo przy zakupie wybranych procesorów AMD Ryzen i kart graficznych AMD Radeon
Architektura AMD RDNA 4 przeszła liczne usprawnienia względem RDNA 3. Pomimo że nadal wykorzystuje pamięci GDDR6, możemy liczyć na wzrost wydajności dzięki licznym optymalizacjom. Wspomniana iteracja architektury, zastosowana w najnowszych układach graficznych AMD Radeon RX 9070 XT i Radeon RX 9070, opiera się na monolitycznej budowie, co stanowi odejście od modułowej konstrukcji z kilkoma chipletami. Takie rozwiązanie pozwala na redukcję opóźnień wewnętrznych. GPU zostało wykonane w procesie technologicznym TSMC N4P (4 nm), a rdzeń NAVI 48 XTX zawiera 53,9 miliarda tranzystorów na powierzchni 356,5 mm², co stanowi pewne zmniejszenie względem poprzedniej generacji, gdzie wynosiło to 390 mm². Nowe układy wykorzystają również magistralę PCIe 5.0.
AMD Radeon RX 9070 XT | AMD Radeon RX 9070 | NVIDIA GeForce RTX 5070 Ti | NVIDIA GeForce RTX 5070 | |
Architektura | RDNA 4 | RDNA 4 | Blackwell | Blackwell |
Litografia | TSMC N4P (4 nm) | TSMC N4P (4 nm) | TSMC 4N (5 nm) | TSMC 4N (5 nm) |
Rdzeń | NAVI 48 XTX | NAVI 48 XT | GB203-300 | GB205-300 |
Powierzchnia | 357 mm² | 357 mm² | 378 mm² | 263 mm² |
Tranzystory | 53.9 mld | 53.9 mld | 45.6 mld | 31 mld |
Bloki CU / SM | 64 | 56 | 70 | 48 |
Jednostki FP32 | 4096 | 3584 | 8960 | 6144 |
ROP | 128 | 128 | 96 | 64 |
TMU | 256 | 224 | 280 | 192 |
Rdzenie RT | 64 | 56 | 70 | 48 |
Rdzenie AI | 128 | 112 | 280 | 192 |
Taktowanie bazowe | 2400 MHz (Game) | 2070 MHz (Game) | 2300 MHz | 2160 MHz |
Taktowanie Turbo | 2970 MHz | 2520 MHz | 2450 MHz | 2510 MHz |
Pamięć VRAM | 16 GB GDDR6 | 16 GB GDDR6 | 16 GB GDDR7 | 12 GB GDDR7 |
Szybkość VRAM | 20 Gbps | 20 Gbps | 28 Gbps | 28 Gbps |
Magistrala | 256-bit | 256-bit | 256-bit | 192-bit |
Przepustowość | 640 GB/s | 640 GB/s | 896 GB/s | 672 GB/s |
AMD Infinity Cache | 64 MB (3. gen) | 64 MB (3. gen) | - | - |
Moc FP32 | 48.7 TFLOPS | 36.1 TFLOPS | 44 TFLOPS | 31 TFLOPS |
Moc FP8 (AI TOPS) | - | - | 703 AI TOPS | 494 AI TOPS |
Moc FP4 (AI TOPS) | - | - | 1406 AI TOPS | 988 AI TOPS |
Moc INT8 (AI TOPS) | 779 AI TOPS | 578 AI TOPS | Brak informacji | Brak informacji |
Moc INT4 (AI TOPS) | 1557 AI TOPS | 1156 AI TOPS | Brak informacji | Brak informacji |
DLSS / FSR | FSR 4 | FSR 4 | DLSS 4 | DLSS 4 |
Magistrala | PCIe 5.0 x16 | PCIe 5.0 x16 | PCIe 5.0 x16 | PCIe 5.0 x16 |
HDMI | HDMI 2.1b | HDMI 2.1b | HDMI 2.1 | HDMI 2.1 |
DisplayPort | DisplayPort 2.1a UHB13.5 | DisplayPort 2.1a UHB13.5 | DisplayPort 2.1b UHBR20 | DisplayPort 2.1b UHBR20 |
TDP | 304 W | 220 W | 300 W | 250 W |
Cena MSRP | 599 USD | 549 USD | 749 USD | 549 USD |
Karty graficzne AMD Radeon RX 9070 XT oraz Radeon RX 9070 będą dostępne tylko w wersjach niereferencyjnych
Jeżeli chodzi o zmiany w samej architekturze, rozpoczniemy od omówienia najbardziej palącego tematu, czyli poprawy wydajności w raytracingu i wprowadzeniu obsługi path tracingu. Według AMD wzrost osiągów ma wynosić niemal 2,5-krotność względem układów bazujących na RDNA 2 oraz dwukrotność względem RDNA 3. Osiągnięto to poprzez podwojenie wskaźników przecięcia trójkątów i promieni, przyspieszone przetwarzanie stosów obliczeń raytracingu i cieniowania oraz optymalizacje Bounding Boxes, czyli obliczeń kolizji w raytracingu. Ponadto na każde 4 bloki obliczeniowe CU przypadają dwie jednostki RA (Ray Accelerator) oraz ulepszono kompresję struktur BVH, co powinno zmniejszyć wymagania pamięciowe. Szczegóły tego zagadnienia omówimy w dalszej części artykułu. Ulepszono również akceleratory pakietów danych, co poprawia przetwarzanie komend, a tym samym wpływa na mniejsze opóźnienia.
Udziały AMD na rynku procesorów konsumenckich stopniowo rosną, ale firmę wciąż dzieli przepaść od Intela
Zmiany objęły także podsystem pamięci, ponieważ nowe układy zaoferują 64 MB pamięci trzeciego poziomu – Infinity Cache 3. generacji. AMD kontynuuje w ten sposób strategię stosowania dużej pamięci podręcznej, której celem jest redukcja opóźnień oraz zmniejszenie obciążenia magistrali VRAM, co ma szczególne znaczenie przy wykorzystaniu starszego typu pamięci GDDR6. Pamięć podręczna drugiego poziomu (L2) została zwiększona do 8 MB, natomiast pamięć pierwszego poziomu (CU Cache), zintegrowana z jednostkami obliczeniowymi, wynosi 2 MB. Warto również zaznaczyć, że układy graficzne obsługują maksymalnie 16 GB VRAM o prędkości 20 Gb/s, współpracującą z 256-bitową szyną danych, co przekłada się na przepustowość na poziomie 640 GB/s.
AMD zaprezentowało wyniki finansowe za 2024 rok. Firma znajduje się w dużo lepszym położeniu niż Intel
Jednostki CU otrzymały dwa bloki SIMD32, czyli bloki zawierające 32 jednostki obliczeniowe dla wektorów. Pierwszy z nich obsługuje obliczenia FMA oraz INT, czyli obliczenia zmiennoprzecinkowe oraz dla liczb całkowitych. Drugi blok natomiast obsługuje wyłącznie obliczenia dla liczb zmiennoprzecinkowych. Bloki obliczeniowe wyposażono również w 8 jednostek TLU (Transcendental Logic Units), zaprojektowanych z myślą o wydajności przy bardziej skomplikowanych operacjach matematycznych, takich jak obliczenia z liczbami transcendentalnymi (np. π, e). Poprawiono także bloki odpowiedzialne za obliczenia skalarne, które teraz mogą przetwarzać dane 32b float w tym FP32. Ulepszono również scheduler, który teraz może szybciej przetwarzać operacje pobierania i zapisywania danych oraz instrukcji. Rejestr ogólnego przeznaczenia dla jednostek wektorowych (Vector GPR) ma pojemność 192 KB, natomiast dla jednostek obliczeń skalarnych (Scalar GPR) – 8 KB. Pamięć współdzielona między rdzeniami wynosi 128 KB. Całość ma przełożyć się na wzrost wydajności w rasteryzacji o około 50% względem architektury RDNA 3 i niemalże dwukrotnie względem RDNA 2.
AMD Radeon Anti-Lag 2 może powodować awarie gry Marvel's Spider-Man 2. Twórcy zdecydowali się dezaktywować tę opcję
AMD poprawiło kompresję ośmiodrożnych struktur danych BVH (Bounding Volume Hierarchy), techniki wykorzystywanej m.in. w raytracingu, która przyspiesza obliczenia związane z renderowaniem scen 3D w czasie rzeczywistym. BVH umożliwia szybkie określenie, które obiekty w scenie powinny być uwzględnione w procesie renderowania, co wpływa na takie efekty jak rzucanie cieni przez obiekty znajdujące się za widoczną sceną gry. Kompresja tych struktur danych w architekturze RDNA 3 pozwala na zmniejszenie ich objętości o 0,4 raza w porównaniu do poprzednich rozwiązań. Jednak to nie jest to jedyna zmiana – poprawiono także sposób kolejkowania zadań związanych z cieniowaniem obiektów oraz dodano kolejny potok. W architekturze RDNA 3 proces ten odbywał się metodą „kto pierwszy, ten lepszy”, natomiast w RDNA 4 wprowadzono możliwość modyfikacji kolejki, co pozwala na przełożenie zadań o długim czasie oczekiwania. Mówimy zatem o dynamicznym alokowaniu rejestrów. Dzięki temu włączenie raytracingu oraz używanie wyższych rozdzielczości powinno wiązać się z mniejszym zapotrzebowaniem na pamięć VRAM oraz z mniejszymi opóźnieniami w dostępie do danych.
AMD Radeon RX 7650 GRE nie jest kolejnym układem wydanym z okazji Roku Królika. Skrót GRE oznacza tutaj... Great Radeon Edition
Oczywiście, zgodnie z obecnymi trendami, zwiększono także wydajność akceleracji obliczeń AI, co przełoży się na technologie takie jak FSR 4. Względem architektury RDNA 3 mówimy tutaj o dwukrotnym wzroście wydajności, za co odpowiada poprawienie wydajności dla obliczeń tensorowych, wsparcie dla obliczeń 8b float w tym FP8, obsługa Structured Sparsity oraz modelu AI - ML-based Super Resolution, który będzie miał przełożenie na działanie techniki FSR 4. Pewne usprawnienia wprowadzono również w silniku multimedialnym – przepustowość kodowania i dekodowania formatu AV1 została podwojona, jakość w formatach AVC (H.264) poprawiono o 25%, a HEVC (H.265) o 11%. Opóźnienia w strumieniowaniu zostały zmniejszone oraz wprowadzono optymalizację dla: OBS, FFMPEG oraz Handbrake, co realnie przełoży się na korzyści dla osób pracujących z materiałami wideo. Jeśli chodzi o silnik wyświetlania obrazu, nowe układy obsługują DisplayPort 2.1a oraz HDMI 2.1b, a także oferują ulepszone skalowanie i wyostrzanie obrazu dla wyświetlaczy.
AMD Radeon RX 9070 XT oraz Radeon RX 9070 - Wiemy już, kiedy dokładnie zobaczymy nowe karty graficzne RDNA 4
Podsumowując, AMD wprowadziło kilkanaście znaczących zmian w swojej architekturze, zwłaszcza w kontekście technik śledzenia promieni RT i PT oraz zastosowań do obliczeń AI, co wpłynie również na nową iterację techniki upscalowania obrazu FSR 4. Patrząc na informacje dostarczone przez AMD, nowe karty graficzne Radeon RX 9070 XT i RX 9070 mają szansę nawiązać realną konkurencję z serią NVIDIA GeForce RTX 4000 i 5000. Ostateczne potwierdzenie wydajności tych rozwiązań jednak przyniosą testy, które pojawią się w niedalekiej przyszłości.
Powiązane publikacje

ASUS ROG Astral GeForce RTX 5080 DOOM Edition to limitowana karta graficzna dla fanów gry DOOM: The Dark Ages
35
NVIDIA GeForce RTX 5070 Ti - Podkręcono pamięć karty graficznej. Kości GDDR7 od SK hynix osiągnęły 34 Gb/s
181
ASUS GeForce RTX 5000 ROG Astral - karty graficzne Blackwell, które posiadają akcelerometr i żyroskop
89
AMD Radeon RX 9070 GRE został oficjalnie zaprezentowany w Chinach - Potwierdzono specyfikację i cenę karty RDNA 4
56