Test karty graficznej NVIDIA GeForce RTX 2080 SUPER - Premiera

Sebastian Oktaba | 23-07-2019 15:00 |

Karty graficzne

- SPIS TREŚCI -

NVIDIA Turing - trochę więcej o architekturze

Rdzenie Turing stworzono przy wykorzystaniu 12 nm litografii FFN (FinFET NVIDIA), będącej usprawnioną odmianą 16 nm procesu technologicznego dedykowanego układom graficznym NVIDII, bowiem 7 nm odpowiedniej sprawności jeszcze nie osiągnęło (zwłaszcza przy ogromnych GPU). Układ TU102 (GeForce RTTX 2080 Ti) mierzy 754 mm² zawierając 18.6 miliarda tranzystorów, TU104 (GeForce RTX 2080 / RTX 2080 SUPER / RTX 2070 SUPER) mierzy 545 mm² skrywając 13.6 miliarda tranzystorów, natomiast TU106 (GeForce RTX 2070 / RTX 2060 SUPER) mierzy 445 mm² przy 10.8 miliarda tranzystorów. Szczegółowe dane techniczne zamieszczam w tabelkach, znajdziecie tam również taktowania poszczególnych procesorów graficznych, jednak tym razem Founders Edition nie oznacza wersji referencyjnej - NVIDIA podniosła swoim kartom częstotliwości GPU Boost, a dodatkowo wprowadziła wydajniejsze chłodzenie z dwoma wentylatorami, stwarzając konkurencję dla producentów AiB.

NVIDIA przedstawia architekturę Turing w kategorii największego skoku jakościowego w rozwoju układów graficznych ostatniego dziesięciolecia, czyli momentu wprowadzenia rodziny GeForce 8000 oraz zunifikowanych shaderów, które przejęły funkcje vertex i pixel shaderów, wykonując również inne obliczenia np.: fizyki obiektów czy geometrii. Cofamy się zatem do absolutnych początków DirectX 10 oraz implementacji w rdzeniach graficznych skalarnych jednostek zmiennoprzecinkowych zamiast tradycyjnych wówczas wektorowych. Turing to architektura stworzona do renderowania hybrydowego, gdzie wykorzystywany będzie ray tracing w czasie rzeczywistym oraz tradycyjna rasteryzacja, a dodatkowo sztuczna inteligencja oraz wianuszek innych autorskich rozwiązań, które wspólnie mają podnieść poziom realizmu oprawy graficznej. Jak producent to osiągnął? Ciekawych pomysłów jest naprawdę niemało, a znajdziemy tutaj chociażby nowe jednostki obliczeniowe dedykowane konkretnym zastosowaniom. Poniżej opisuję najważniejsze elementy Turinga, aczkolwiek NVIDIA wysmarowała ponad 80-cio stronicowy dokument opisujący wszystkie szczegóły techniczne (tzw. whitepaper), którego streszczenie zajęłoby przynajmniej połowę niniejszego artykułu. Wybaczcie więc wybiórczość.

Turing dziedziczy wszystkie ulepszenia rdzeni CUDA wprowadzone w architekturze Volta, zawierając także wachlarz zaawansowanych funkcji cieniowania, które poprawiają wydajność, jakość obrazu i złożoność geometryczną trójwymiarowych scen. Konstrukcja chipu przeszła gruntowną przemianę względem poprzedników (Pascala), zbliżając się do architektury Volta. Strukturę SM podzielono na cztery bloki przetwarzania, każdy zawierający 16 rdzeni FP32 i INT32, dwa rdzenie Tensor, pojedynczy układ planowania oraz wysyłania wątków. Osobno dostawiono po jednym rdzeniu RT. Sumarycznie dla każdego pełnego SM oznacza to dokładnie 64 procesory CUDA, 8 jednostek Tensor, 4 jednostki TMU oraz pojedynczą jednostkę RT, toteż GeForce RTX 2080 Ti bazujący na układzie dysponującym 68 SM, posiada 4352 jednostki cieniujące, 544 jednostki Tensor, 272 jednostki TMU oraz 68 rdzeni RT. W przypadku Pascala na każdy SM przypadało 128 procesorów CUDA oraz 8 jednostek TMU, natomiast rdzenie Tensor i RT nie występowały wcale. Turing otrzymał także nowy mechanizm zrządzania pamięcią L1 Cache działającej przy niższych opóźnieniach oraz dwukrotnie większy L2 Cache.

Pełny blok SM Turing

Warto również zaznaczyć, że najmocniejsze odmiany układów graficznych Turing TU102 trafiły do akceleratorów montowanych w stacjach roboczych, bowiem GeForce RTX 2080 Ti wykorzystuje 68 SM, podczas gdy NVIDIA Quadro RTX 6000 otrzymało 72 SM, dopełnione 384-bitową magistralą pamięci GDDR6. Łatwo zatem wykalkulować, że gdyby NVIDIA naprawdę potrzebowała wydać mocniejszą kartą graficzną, dysponuje jeszcze całkiem sporym zapasem, który prawdopodobnie wykorzysta w kolejnej generacji RTX-ów albo stworzy na poczekaniu nowego Titana. Teoretycznie Zieloni mogliby przygotować potworka mającego nawet 80 SM, podobnie jak Quadro GV100 bądź Titan V, posiadających 5120 CUDA, 320 TMU, 128 ROP, 640 Tensor i 80 RT. Trudno zatem oprzeć się wrażeniu, że rodzina GeForce RTX będzie niebawem poszerzona o kolejne high-ednowe modele, zwłaszcza gdy deweloperzy podkreślają jak bardzo zasobożerna jest technika ray tracingu. Jedynym ograniczeniem może okazać się zdolność wytwarzania takich gigantycznych rdzeni na masową skalę w fabrykach TSMC, bowiem mierzyłyby ponad 800 mm². No dobrze, przejdźmy teraz do fundamentów nowej architektury.

Mapa układów TU102 i TU104 - raczej nie trudno odgadnąć, który jest który

Poniżej najsłabszy z rodziny GeForce RTX - układ TU106 stosowany w RTX 2070

Rdzenie RT - zupełnie nowa kategoria jednostek obliczeniowych, nieobecna w rdzeniach Pascal i Volta, oddelegowana wyłącznie do obliczeń związanych ze śledzeniem promieni za pomocą algorytmu BVH (Bounding Volume Hierarchy). Chociaż ray tracing to wcale niemłoda metoda generowania obrazu, dotychczas brakowało cywilnym maszynom mocy obliczeniowej, żeby w czasie rzeczywistym sprostać takiemu zadaniu. A tutaj naprawdę jest co liczyć, bowiem wszystkie obiekty odbijają światło, co pozwala tworzyć fotorealistyczne trójwymiarowe sceny, nawet z uwzględnieniem uproszczonego modelu interakcji z otoczeniem. Pomimo, iż algorytm analizuje tylko te źródła, które bezpośrednio trafiają do obserwatora, wymaga to mocnej maszyny. W przypadku obrazów statycznych nie stanowiło to większego problemu, ale renderowanie w czasie rzeczywistszym jest znacznie bardziej zasobożerne. Dedykowane ray tracingowi rdzenie RT posiadają dwie wyspecjalizowane jednostki przyspieszające (m.in. testowanie przecięć promieni / trójkątów) współpracujące z zaawansowanym filtrowaniem odszumiania oraz interfejsami API kompatybilnymi z NVIDIA RTX, odciążając SM zajęte pozostałymi operacjami. Wzrost wydajności względem GeForce GTX 1000 przy wykorzystaniu pakietu NVIDIA RTX stworzonego dla deweloperów, bazującego na DirectX Raytracing (DXR), powinien być przynajmniej dziesięciokrotny (biorąc pod uwagę wydajność wyrażoną GR/s). Swoją drogą, nasz "przeciek" o dedykowanych rdzeniach RT okazał się trafiony.

Ray tracing od strony sprzętowej i programowej (Battlefield V)

Rdzenie Tensor - wyspecjalizowane jednostki zaprojektowane do uczenia maszynowego i budowy sieci neuronowych, wykonujące obliczenia w macierzowe przydatne w ściśle określonych scenariuszach. Wprowadzone w architekturze Volta, znalazły bardziej konsumenckie zastosowanie również w Turingu, gdzie odpowiadają między innymi za aktywne wspomaganie przetwarzania obrazu i obliczeń graficznych. Rdzenie Tensor powinny być również użyteczne w przypadku FP16 oraz wsparciu obliczeń asynchronicznych., toteż kondycja architektury Turing w niskopoziomowych API powinna wymiernie wzrosnąć. Lista możliwych zastosowań jest jednak znacznie dłuższa, ponieważ przy odpowiednim zaprogramowaniu (NVIDIA NGX) mogą z powodzeniem np. uzupełniać brakujące elementy w niekompletnych obrazach. Tensory w architekturze Turing zostały też usprawnione względem tych stosowanych w Volcie, dodano im precyzyjne tryby INT8 i INT4, a każdy pojedynczy rdzeń może wykonać do 64 operacji zmiennoprzecinkowych FMA (Fused Multiply-Add) przy połowicznym obciążeniu FP16.

Struktura rdzenia Turning oraz model renderowania hybrydowego

SM Turing - nowa architektura wprowadza usprawnione rdzenie CUDA, będące wersją rozwojową SM (Streaming Multiprocessor) Volty, osiągające nawet 50% wyższą wydajność w cieniowaniu względem tych stosowanych w architekturze Pascal. Imponujący wzrost uzyskano dzięki dwóm kluczowym zmianom. Po pierwsze - Turing obsługuje niezależne kolejkowanie instrukcji, dzięki czemu może wykonywać pewne obliczenia równocześnie z operacjami zmiennoprzecinkowymi, które w poprzednich generacjach GPU spowodowałyby zablokowanie pozostałych rozkazów. Po drugie - ścieżka SM została przeprojektowana w celu zunifikowania pamięci wspólnej, buforowania tekstur oraz pamięci - wszystko w jednym pakiecie. Owocuje to dwukrotnie większą przepustowością pamięci podręcznej L1, potrzebnej w typowych zadaniach jakie wykonuje GPU. Połączenie pamięci podręcznej L1 z pamięcią wspólną zmniejsza opóźnienia i zapewnia wyższą przepustowość, niż implementacja pamięci podręcznej L1 poprzednio stosowana w procesorach graficznych Pascal. O pozostałych zmianach oraz usprawnieniach wspominałem na początku rozdziału - stąd powinna wynikać ewentualna przewaga Turinga nad poprzednikami, pomimo relatywnie niewielkiego wzrostu ilości jednostek cieniujących CUDA.

Zmiany w pamięci podręcznej i deklarowany wzrost wydajności jednostek cieniujących

Techniki VRS i TSS - pierwsza (Variable Rate Shading) pozwala dynamicznie kontrolować szybkość wykonywania operacji cieniowania, działających w różnych trybach ułożenia pikseli. Algorytm określa szybkość cieniowania obliczając powierzchnię zadaszenia i wartości prymitywnej (trójkąta), pozwalając na efektywniejsze wykorzystanie zasobów przy jednoczesnej redukcji obciążenia w obszarach ekranu, gdzie cieniowanie w pełnej rozdzielczości nie przynosi żadnych zauważalnych korzyści. VRS pozwala zatem uzyskać wysoką lecz bezstratną płynność obrazu. Technika TSS (Texture-Space Shading) umożliwia z kolei cieniowanie obiektów w „prywatnej przestrzeni” współrzędnych (tekstur) zapisanych w pamięci, skąd określone dane są pobierane. Dzięki możliwości buforowania wyników i ponownego użycia / próbkowania, programiści mogą wyeliminować duplikację cieniowania lub zastosować różne metody próbkowania, które poprawiają ogólną jakość obrazu. Jak to będzie działać w praktyce niebawem zobaczymy.

NVIDIA Turing to architektura oferująca na papierze bardzo dużo ciekawych oraz innowacyjnych rozwiązań, a także usprawnień w obrębie samego jądra. Zdecydowanie bliżej jej również do Volty, niż Pascala.

NVIDIA NGX i DLSS - pierwsza to technika oparta na sztucznej inteligencji oraz głębokim uczeniu (Deep Learning) wykorzystująca głębokie sieci neuronowe (DNN) oraz rdzenie Tensor do wykonywania funkcji opartych na sztucznej inteligencji. W założeniach powinna przyspieszać oraz usprawniać obróbkę grafiki na etapie komunikowania z silnikiem. Co ciekawe, SI będzie nieprzerwanie uczyła się kolejnych gier komputerowych, a całym procesem zajmą się centra NVIDII, toteż z czasem produkcje powinny działać coraz lepiej, bo udostępniane profile będą lepiej zoptymalizowane (dostępne w sterowniku albo w formie patcha, który odczytają Tensory). Bezpośrednio z NVIDIA NGX i Tensorami związana jest również technika DLSS (Deep Learning Super-Sampling), nowe wygładzanie wykorzystujące sieci neuronowe do eliminacji nierównych krawędzi, poprawienia ostrości obrazu czy dobrania najlepszego koloru dla poszczególnych pikseli. DLSS zapewnia o wiele wyższą jakość od wygładzania TAA, bowiem TAA renderuje przy rozdzielczości docelowej, a następnie łączy ramki odejmując szczegóły. DLSS pozwala na szybsze renderowanie przy mniejszej liczbie próbek wejściowych, a ostateczny wynik jest podobny lub lepszy przy mniejszej zasobożerności. Co więcej, algorytm zapamiętuje wygląd konkretnych klatek (64), tworząc kompletny obraz wysokiej jakości. Deweloperzy mogą samemu zaimplementować obydwie nowości albo skorzystać z bezpłatnej pomocy NVIDII, która dysponując komputerem Saturn V przygotuje im odpowiedni profil (wolontariat jest podyktowany chęcią popularyzacji tej techniki). NVIDIA NGX i DLSS nie będą jednak działać na architekturze Pascal, starszych i konkurencyjnych. Obecność DLSS potwierdzono w m.in.: Atomic Heart, Final Fantasy XV, Hitman 2, Serious Sam 4, Shadow of the Tomb Raider.

Przewaga DLSS nad TAA ma być druzgocąca przy zachowaniu podobnego obciążenia

Pamięci GDDR6 - Volta wykorzystywała pamięci HBM2 zapewniające ogromną przepustowość, wynoszącą w przypadku NVIDIA Titan V ponad 652 GB/s, jednak takie moduły znacznie podnosiły cenę urządzenia. Problemem okazywała się również ograniczona dostępność, związana z trudniejszym procesem wytwarzania od zwykłych GDDR. Dlatego w konsumenckich kartach graficznych GeForce RTX 2000 zastosowano pamięci GDDR6, pracujące z wysokimi zegarami (14 000 MHz), zapewniającymi bardzo zbliżoną przepustowość. NVIDIA zadbała także o właściwą implementację nowych modułów, bowiem pamięci wspiera szereg technologii zwiększających ich efektywność, wydajność energetyczną, redukujących szumy, minimalizujących zmiany spowodowane temperaturą i napięciem zasilania. Turing otrzymał także bardziej zaawansowane mechanizmy bezstratnej kompresji tekstur, zmniejszające zapotrzebowanie na przepustowość pamięci. Silnik GPU dysponuje wieloma różnymi algorytmami, które określają najbardziej efektywny sposób kompresowania, zmniejszając zarazem ilość przenoszonych danych z pamięci graficznej do pamięci podręcznej L2 (dodatkowo dwukrotnie powiększonej względem Pascali), a także zmniejszając ilość danych przesyłanych między klientami i buforem ramki.

Pamięci GDDR6 i korzyści płynące z nowego mechanizmu kompresji tekstur

NVIDIA NVLink - karty graficzne NVIDIA RTX 2080 / 2080 Ti zamiast tradycyjnego złącza SLI otrzymały NVIDIA NVLink drugiej generacji, które umożliwia ultraszybką komunikację i oprócz wysokiej przepustowości zapewnia też niskie opóźnienia między procesorami graficznymi. NVIDIA NVLink zapewnia bardziej równomierne obciążenie układów, zaś stosowana w akceleratorach Quadro również bezpośredni dostęp do pamięci innych podłączonych procesorów graficznych tzn. łączenie przestrzeni VRAM. Niestety, wersja przygotowana dla GeForce RTX 2000 będzie podobno tylko rozwinięciem SLI, dlatego konsolidacja pamięci graficznej tutaj nie występuje, chociaż w przyszłości implementacja takiego mechanizmu jest niewykluczona. Bezproblemowo mają jednak działać wszystkie profile multi-GPU jakie dotychczas powstały. Układ TU102 posiada dwa złącza NVLink x8, podczas gdy TU104 tylko jedno x8, a każde może dostarczyć do 25 GB/s, a całkowita łączna dwukierunkowa przepustowość tej technologii może wynosić do 100 GB/s. Jest to zatem bardziej nowoczesne rozwiązanie od podwójnego mostka SLI HB oraz PCI-Express 3.0 stosowanych w układach Pascal, aczkolwiek obsługiwane są konfiguracje z maksymalnie dwoma kartami graficznymi (od RTX 2070 SUPER). Mostka nie znajdziemy w zestawie - jest dodatkowo płatny i trzeba tutaj szykować 79 USD.

VirtualLink i HDR - spośród pozostałych zmian i wprowadzonych nowości warto jeszcze wymienić Virtual Link. Obsługa systemów VR wymaga obecnie podłączenia wielu kabli, pogarszających ergonomię całego zestawu, więc NVIDIA postanowiła uzdrowić tę poplątaną sytuację. Karty GeForce RTX 2000 otrzymały sprzętową obsługę VirtualLink, będącego nowym otwartym standardem korzystającym z pojedynczego złącza USB Typ-C, a pomysł wspierają m.in. NVIDIA, Oculus, Valve, Microsoft i AMD. VirtualLink obsługuje jednocześnie 4 pasma DisplayPort (HBR3) w komitywie ze łączem SuperSpeed USB 3 przeznaczonym do osprzętu od śledzenia ruchu. Pozwoli to przystosować zestawy VR dla większej ilości urządzeń, zwłaszcza tych mobilnych, gdzie z różnych względów możliwe jest umieszczenie tylko pojedynczego USB Typ-C. Procesory Turing zyskały też całkowicie nowy silnik wyświetlania, przeznaczony dla nowej generacji wyświetlaczy, obsługujących wyższe rozdzielczości, szybsze odświeżanie i HDR. Karty standardowo otrzymały DisplayPort 1.4a umożliwiający wyświetlenie rozdzielczości 8K przy 60 Hz, a także obsługują technologię VESA Display Stream Compression (DSC) 1.2, zapewniającą wyższą bezstratną kompresję obrazu. Poza tym, nowy silnik może się pochwalić natywnym przetwarzaniem HDR z równoczesnym mapowaniem tonów w wyświetlanym potoku. Na zakończenie otrzymaliśmy ulepszony enkoder NVENC dodający obsługę H.265 (HEVC) 8K 30 FPS oraz dekodowanie HDR HEVC YUV444 10 / 12b przy 30 FPS, H.264 8K i VP9 10 / 12b HDR.

- SPIS TREŚCI -

Bądź na bieżąco - obserwuj PurePC.pl na Google News

Tagi:

Zgłoś błąd

Powiązane publikacje

Test karty graficznej KFA2 GeForce RTX 5080 1-Click OC - Efektowne podświetlenie ARGB i regulowana podpórka w komplecie

173

Jaka karta graficzna do gier? Kupić AMD Radeon czy NVIDIA GeForce? Polecane karty graficzne na czerwiec 2025

162

Test wydajności DOOM: The Dark Ages - Path Tracing to piekielne wymagania sprzętowe. Porównanie wydajności i jakości grafiki

550

Test kart graficznych AMD Radeon RX 9060 XT vs NVIDIA GeForce RTX 5060 Ti - Waga kogucia doładowana 16 GB pamięci?

455

Test karty graficznej MSI GeForce RTX 5060 Gaming - Legendarne 8 GB niezgody. Najbardziej emocjonująca tegoroczna premiera

251

Liczba komentarzy: 140

Komentarze:

Załaduj komentarze

Test karty graficznej NVIDIA GeForce RTX 2080 SUPER - Premiera

- SPIS TREŚCI -

NVIDIA Turing - trochę więcej o architekturze

NVIDIA Turing to architektura oferująca na papierze bardzo dużo ciekawych oraz innowacyjnych rozwiązań, a także usprawnień w obrębie samego jądra. Zdecydowanie bliżej jej również do Volty, niż Pascala.

- SPIS TREŚCI -

Powiązane publikacje

Test karty graficznej KFA2 GeForce RTX 5080 1-Click OC - Efektowne podświetlenie ARGB i regulowana podpórka w komplecie

Jaka karta graficzna do gier? Kupić AMD Radeon czy NVIDIA GeForce? Polecane karty graficzne na czerwiec 2025

Test wydajności DOOM: The Dark Ages - Path Tracing to piekielne wymagania sprzętowe. Porównanie wydajności i jakości grafiki

Test kart graficznych AMD Radeon RX 9060 XT vs NVIDIA GeForce RTX 5060 Ti - Waga kogucia doładowana 16 GB pamięci?

Test karty graficznej MSI GeForce RTX 5060 Gaming - Legendarne 8 GB niezgody. Najbardziej emocjonująca tegoroczna premiera

Komentarze:

Jaki procesor kupić? Co wybrać w cenie od 400 do 3500 złotych? Lepszy Intel czy AMD? Poradnik zakupowy na lipiec 2025

Test Hyperbook NV6 z NVIDIA GeForce RTX 5060 Laptop GPU. Tańsza propozycja dla mniej wymagających graczy

Jaka pamięć RAM DDR5 do procesora Intel Core Ultra? Test DDR5 CUDIMM 9200 MHz kontra DDR5 6000, 7200 i 8000 MHz

Test Dream Machines RT5090-16PL32 z AMD Ryzen 9 9955HX3D i GeForce RTX 5090 Laptop. Najmocniejszy notebook tej generacji

Jaki telefon kupić? Polecane smartfony na lipiec i sierpień 2025. Urządzenia na każdą kieszeń, w każdej półce cenowej

System ChromeOS przejdzie metamorfozę. Google zdradza swoje plany, które dotkną przyszłe Chromebooki

Meta kupuje startup, który sklonuje twój głos w 30 sekund. Nowa era deepfake'ów czy przełom w komunikacji?

Elon Musk twierdzi, że Grok-4 to najinteligentniejsza AI świata. Niezależne testy pokazują zupełnie inną prawdę o jej możliwościach

Windows 11 nauczy się naprawiać sam siebie. Microsoft ujawnia przełomową technologię Quick Machine Recovery

Netflix - filmowe i serialowe nowości VOD na 14 - 20 lipca 2025. Wśród premier Delirium, Dzikość, Od ściany do ściany, Straż cywilna

Test wydajności DOOM: The Dark Ages - Path Tracing to piekielne wymagania sprzętowe. Porównanie wydajności i jakości grafiki

Jaki komputer do gier kupić? Polecane zestawy komputerowe na lipiec 2025. Komputery gamingowe w różnych cenach

Karty graficzne AMD Radeon RX 9000 w cenach blisko MSRP. Sytuacja architektury RDNA 4 wygląda już dużo lepiej

Sterowniki NVIDIA 590.26 w wersji preview wprowadzają obsługę Smooth Motion dla kart GeForce RTX 4000

NVIDIA GeForce RTX 5070 SUPER oraz GeForce RTX 5070 Ti SUPER - Nadchodzą lepiej wyposażone karty graficzne Blackwell

O portalu PurePC

Najważniejsze

Znajdź PurePC na