Zgłoś błąd
X
Zanim wyślesz zgłoszenie, upewnij się że przyczyną problemów nie jest dodatek blokujący reklamy.
Błędy w spisie treści artykułu zgłaszaj jako "błąd w TREŚCI".
Typ zgłoszenia
Treść zgłoszenia
Twój email (opcjonalnie)
Nie wypełniaj tego pola
Załóż konto
EnglishDeutschукраїнськийFrançaisEspañol中国

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350

Mateusz Szlęzak | 12-06-2025 20:30 |

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350AMD na konferencji prasowej zaprezentowało układy z serii Instinct MI350 oparte na architekturze CDNA 4, która została zaprojektowana z myślą o maksymalnym wykorzystaniu możliwości sztucznej inteligencji oraz zwiększeniu efektywności energetycznej. Poznaliśmy szczegóły dotyczące zmian w budowie tych akceleratorów oraz ich bezpośredniego wpływu na wydajność. Zapraszam zatem do obszernego opisu architektury CDNA 4 i jej szerokich możliwości.

AMD zaprezentowało akceleratory z serii Instinct MI350, a wraz z nimi architekturę CDNA 4, na której się tu skupimy. Poznaliśmy szczegóły dotyczące zmian w budowie tych układów oraz ich wpływu na wydajność.

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350 [1]

Test kart graficznych AMD Radeon RX 9060 XT vs NVIDIA GeForce RTX 5060 Ti - Waga kogucia doładowana 16 GB pamięci?

Aby zrozumieć działanie układów z serii Instinct MI350 oraz architektury CDNA 4, warto przeanalizować sposób ich konstrukcji w technologii CoWoS, czyli wielowarstwowego pakowania. Górna warstwa składa się z dwóch chipletów obliczeniowych, pod którymi znajdują się dwa bloki I/O wraz z interkonektem AMD Infinity Fabric, łączącym te bloki i oferującym przepustowość na poziomie 5,5 TB/s. Wokół nich rozmieszczono osiem kości pamięci HBM3E o łącznej przepustowości 8 TB/s i pojemności 288 GB. Każdy chiplet obliczeniowy jest podzielony na cztery bloki XCD (Accelerator Complex Die), z których każdy zawiera 32 jednostki CU (Compute Units), a każda jednostka CU składa się z 4 rdzeni Matrix. Wbudowana pamięć cache L2 ma pojemność 4 MB na blok XCD. W sumie cały układ akceleratora AI obejmuje 8 bloków XCD, co daje 256 jednostek CU i 1024 rdzenie Matrix (odpowiednik rdzeni Tensor u NVIDIA).

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350 [2]

AMD Ryzen Z2 A oraz Ryzen AI Z2 Extreme - Firma potwierdza specyfikację procesorów dla konsol typu ROG Xbox Ally

Każdy blok XCD ma bezpośredni dostęp do interkonektu Infinity Fabric, który zapewnia 16 linii PCIe 5.0 oraz siedem połączeń x16 Infinity Fabric Link 4. generacji o przepustowości 1075 GB/s każde. Do interkonektu podłączona jest również pamięć HBM3E poprzez Infinity Cache o łącznej pojemności 256 MB. Chiplety zostały wykonane w procesie technologicznym TSMC N3P, natomiast bloki I/O powstały w litografii TSMC N6. Taka budowa umożliwia programowy podział układu, pozwalając korzystać z różnych trybów obliczeniowych (CPX, DPX, QPX, SPX) w połączeniu z konfiguracjami pamięci NUMA (NPS1 i NPS2). Tryb CPX traktuje GPU jako jedną całość, DPX dzieli go na dwie części, QPX na cztery, a SPX reprezentuje najmniejsze logiczne fragmenty, czyli pojedyncze bloki XCD. Tryby NPS określają sposób podziału pamięci HBM3E: NPS1 to jedna wspólna domena NUMA, a NPS2 – dwie.

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350 [3]

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350 [4]

PlayStation Handheld z nowymi szczegółami specyfikacji. Specyfikacja konsoli ma mieć podobieństwa do AMD Strix Halo

Na przykład CPX+NPS2 wykorzystuje pełen potencjał GPU z podziałem pamięci na dwie części, DPX+NPS2 oferuje dwie niezależne instancje z dedykowaną pamięcią (podział pomiędzy dwa chiplety), a QPX+NPS2 pozwala na cztery instancje dzielące dwie domeny pamięci. SPX+NPS1 oznacza wykorzystanie pojedynczych bloków XCD do przetworzenia osobnych zadań, ale z jedną domeną NUMA. W praktyce umożliwia to uruchomienie pełnego modelu LLM o 520 miliardach parametrów na całym układzie lub ośmiu modeli LLaMA 3.1 po 70 miliardów parametrów niezależnie, każdy na osobnym bloku XCD.

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350 [5]

AMD FSR Redstone - Firma ujawnia pakiet technologii, bazujących na uczeniu maszynowym. Dostępność tylko dla kart RDNA 4

AMD podkreśla, że architektura CDNA 4 wprowadza również rozszerzone możliwości w zakresie rozmiarów stron pamięci UTC1 i UTC2, które odpowiadają za organizację i podział pamięci wewnętrznej układu. Dodatkowo zastosowano optymalizacje w dekodowaniu danych oraz poszerzono potoki pamięciowe, co pozwala utrzymać pełną przepustowość przy niższym taktowaniu i napięciu, ograniczając tym samym zużycie energii - dzięki czemu układ Instinct MI350X zużywa o 30% mniej energii podczas odczytu danych z pamięci HBM3E. Jeśli chodzi o jednostki obliczeniowe (CU), do najważniejszych zmian należy podwojenie liczby operacji macierzowych w mieszanej precyzji wykonywanych na takt zegara, co znacząco przyspiesza mnożenie macierzy (GEMM), oraz dwukrotne zwiększenie przepustowości dla funkcji transcendentalnych, co przekłada się na lepszą wydajność mechanizmów attention.

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350 [6]

AMD Ryzen Threadripper (PRO) 9000 - Oficjalna prezentacja procesorów HEDT Zen 5 oraz układów dla stacji roboczych

Wprowadzono również obsługę niskoprecyzyjnych formatów liczbowych FP4 i FP6 zgodnych ze specyfikacją OCP MX, umożliwiających precyzyjne skalowanie obliczeń na poziomie sprzętowym, oraz nowe instrukcje BF16 dot2, które wykonują operacje iloczynu wektorowego z akumulacją do precyzji FP32, oferując kompromis między wydajnością a precyzją. Pamięć lokalna LDS została powiększona do 160 KB i zyskała większą przepustowość, co zmniejsza obciążenie pamięci HBM3E, a bezpośrednie ładowanie danych z pamięci globalnej do LDS zostało usprawnione. W rezultacie zwiększono szczytową przepustowość odczytu danych z pamięci HBM3E przez jednostkę CU o 50% względem poprzedniej generacji. W obszarze kwantyzacji pojawiły się nowe mechanizmy: sprzętowe zaokrąglanie stochastyczne przy konwersji FP16/BF16 do FP32, które ogranicza błędy kwantyzacji, instrukcja LOP3 pozwalająca użytkownikowi definiować niestandardowe operacje logiczne oraz nowe instrukcje min/max umożliwiające bardziej elastyczną obsługę wartości NaN (Not a Number), co znacząco poprawia precyzję i kontrolę nad zachowaniem obliczeń w kontekście niskoprecyzyjnego uczenia maszynowego.

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350 [7]

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350 [8]

Proces 2 nm TSMC z technologią GAA. AMD stawia na wydajność i efektywność energetyczną w serwerach przyszłości

Największy wzrost wydajności architektury CDNA 4 na przykładzie układu Instinct MI355X dotyczy operacji macierzowych w formatach FP16/BF16, FP8 oraz INT8/INT4, gdzie odnotowano niemal dwukrotną poprawę (x1,9) względem Instinct MI300X. Podsumowując największą nowością jest wsparcie dla formatów FP6 i FP4, których wcześniejsza generacja w ogóle nie obsługiwała oraz udoskonalenie w podziale GPU na pojedyncze, niezależne instancje. Jednocześnie nie odnotowano postępu w klasycznych formatach zmiennoprzecinkowych (FP32, FP64), co sugeruje, że nowe GPU są wyraźnie zoptymalizowane pod kątem obliczeń AI i niskoprecyzyjnego przetwarzania, a nie tradycyjnego rynku HPC. Dodatkowo zauważalne jest osłabienie wydajności FP64 w operacjach macierzowych – zaledwie 128 FLOPs/CU w Instinct MI355X – co wskazuje na świadomą rezygnację z rozwoju precyzji podwójnej na rzecz efektywności energetycznej i ukierunkowania na zadania związane ze sztuczną inteligencją.

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350 [9]

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350 [10]

Źródło: AMD, PurePC
Bądź na bieżąco - obserwuj PurePC.pl na Google News
Zgłoś błąd
Liczba komentarzy: 11

Komentarze:

x Wydawca serwisu PurePC.pl informuje, że na swoich stronach www stosuje pliki cookies (tzw. ciasteczka). Kliknij zgadzam się, aby ta informacja nie pojawiała się więcej. Kliknij polityka cookies, aby dowiedzieć się więcej, w tym jak zarządzać plikami cookies za pośrednictwem swojej przeglądarki.