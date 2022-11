Kilka tygodni temu zadebiutowała kolejna technika upscalingu obrazu z niższej rozdzielczości wejściowej. Modę na tego typu rozwiązania zapoczątkowała NVIDIA wraz z pierwszą generacją DLSS. Potem otrzymaliśmy drugą generację o znacznie lepszej jakości przy jednocześnie wysokim wzroście wydajności. Pierwszą odpowiedź na DLSS przygotowało AMD, najpierw wprowadzając pierwszą wersję FSR (FidelityFX Super Resolution), a w tym roku wdrażając także drugą wersję. AMD podeszło do tematu inaczej, pozostawiając oba warianty FSR jako rozwiązania otwarte, podczas gdy NVIDIA DLSS jest zamkniętym rozwiązaniem, wyłącznie dla kart GeForce RTX. Teraz także Intel dołączył do tego grona, wprowadzając swoją wariację w postaci XeSS. W teorii ma ona łączyć wysoką jakość upscalingu znaną z DLSS, ale jednocześnie pozostawiając technikę otwartą dla sporego grona układów graficznych. Na przykładach Shadow of the Tomb Raider oraz HITMAN 3 sprawdzamy obie techniki: NVIDIA DLSS oraz Intel XeSS.

Autor: Damian Marusiak

Czym właściwie jest technologia DLSS (Deep Learning Super Sampling)? Najprościej rzecz ujmując - skalowaniem obrazu (upscaling) wykorzystującym do odtwarzania trójwymiarowej sceny sprzętowe jednostki Tensor, będące składową bloków SM napędzających karty graficzne z rodziny GeForce RTX. Wyspecjalizowane rdzenie zaprzęgnięto do głębokiego uczenia (stąd właśnie Deep Learning w nazwie DLSS), początkowo wymagając osobnego szkolenia dla każdej obsługiwanej gry komputerowej. Takie rozwiązanie okazało się jednak niezbyt efektywne, a jakość reprodukowanego obrazu daleka od satysfakcjonującej. Innymi słowy - DLSS wprawdzie odczuwalnie zwiększało płynność animacji, ale kosztem zauważalnego pogorszenia ostrości grafiki, zwłaszcza w niższych rozdzielczościach. Pierwsza generacja tego rozwiązania bardzo mocno pogarszała jakość obrazu, stając się techniką właściwie bezużyteczną. Druga generacja mocno się poprawiła, oferując jakość obrazu dla wielu uznaną za satysfakcjonującą. Obecnie producent w dalszym ciągu usprawnia jej działanie - kolejne wersje jak DLSS 2.1 czy DLSS 2.2 oferują nie tylko usprawnioną jakość obrazu, ale także redukcję ghostingu. Na horyzoncie jest także kompletnie przebudowana technika DLSS 3, której główną funkcjonalnością jest tzw. Frame Generator, czyli umieszczanie dodatkowej klatki pomiędzy dwie w celu znaczącego zwiększenia wydajności. DLSS 3 jednak jest jeszcze bardziej zamkniętym rozwiązaniem, oferowanym obecnie wyłącznie w nielicznie dostępnych kartach GeForce RTX 4000.

Intel XeSS wykorzystuje algorytmy sztucznej inteligencji do upscalowania rozdzielczości i zwiększania wydajności. Przygotowany algorytm na początku rozpoczyna trening z klatkami o niższej rozdzielczości, przetwarzając je i generując w ten sposób obrazy wyjściowe, które następnie mają być upscalowane do wyższej rozdzielczości. Aby otrzymać jak najwierniejszy obraz wyjściowy, do uczenia maszynowego wykorzystywane będzie tysiące (jak nie więcej) takich treningowych obrazów, a dzięki zwiększaniu ilości danych z nich pochodzących, algorytm AI będzie w stanie lepiej je analizować i korygować powstałe wcześniej błędy (wynikające z użycia niewielkiej liczby obrazów treningowych). Wytrenowany w ten sposób algorytm może później zostać wykorzystany w dowolnej grze (XeSS bazuje na jednym, ogólnym algorytmie działania dla wszystkich gier zamiast na większej ich liczbie, przystosowanych wyłącznie do konkretnych tytułów; podobnie działa to w DLSS począwszy od wersji 2.0), by upscalować dowolny obraz do docelowej rozdzielczości, przy jak najmniejszych stratach w jakości wyświetlanej grafiki. Dodatkowo XeSS zastępuje tradycyjne metody AA, samemu przejmując rolę antyaliasingu w celu odpowiedniego wygładzania krawędzi.

Intel XeSS do działania wykorzystuje zarówno sprzętowe jednostki Matrix (XMX) w kartach graficznych ARC jak również instrukcje DP4a w zgodnych kartach oraz zintegrowanych układach. Choć użycie DP4a jest wystarczające do odpowiedniego działania XeSS, to optymalnym rozwiązaniem będzie posiadanie GPU ze sprzętowymi jednostkami. Przykładowo Intel ARC A380 posiadający 1024 procesorów FP32 może wykonać maksymalnie 4096 operacji typu INT8 - a to właśnie te operacje są wykorzystywane do XeSS (każdy shader jest w stanie wykonać 4 operacje INT8 w jednej chwili). Jednocześnie ta sama karta graficzna posiadająca 128 rdzeni XMX jest w stanie w tym samym czasie wykonać 4-krotnie więcej operacji typu INT8, ponieważ każdy z rdzeni XMX może przeprowadzić 128 operacji INT8 (1024 x 4 = 4096 operacji INT8 na shaderach, z kolei 128 x 128 = 16 384 operacji INT8 na sprzętowych rdzeniach XMX). W naszych testach wykorzystaliśmy układ graficzny NVIDIA GeForce RTX 3070 Ti, by pokazać także skalowanie wydajności z użyciem dwóch różnych technik na tym samym GPU. Uprzedzamy jednak, że najpewniej najlepsze rezultaty Intel XeSS zobaczymy na kartach graficznych Intel ARC właśnie z racji zaimplementowanych sprzętowych jednostek, oddelegowanych do tego zadania.