AMD Instinct MI350X oraz Instinct MI355X oficjalnie zaprezentowane - Akceleratory oparte na architekturze CDNA 4
W 2023 roku firma AMD zaprezentowała akcelerator Instinct MI300A, który był pierwszym APU na rynek HPC / AI. W zeszłym roku wprowadzono z kolei układ Instinct MI325X z 256 GB pamięci HBM3e. Jeszcze w zeszłym roku ogłoszono również zbliżającą się premierę generacji CDNA 4. Dzisiaj, podczas konferencji prasowej, ogłoszono szczegóły dotyczące akceleratorów Instinct MI350X oraz Instinct MI355X. Jak wypadają na tle Instinct MI325X oraz NVIDIA B200?
AMD oficjalnie ogłasza dostępność akceleratorów Instinct MI350X oraz Instinct MI355X, opartych na architekturze CDNA 4. Ich wydajność ma być porównywalna lub wyższa od dostępnych już układów NVIDIA z generacji Blackwell - B200 oraz GB200.
AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350
Zarówno AMD Instinct MI350X jak i Instinct MI355X, posiadają na pokładzie po 288 GB pamięci HBM3e (8192-bit, 8 stosów) o przepustowości sięgającej 8 TB/s. Różnica polega na tym, że Instinct MI350X jest mniej wyżyłowany, przez co pobiera mniej mocy, ale i oferuje nieco mniejszą wydajność. Obie konstrukcje dostępne będą w formie OAM, a współczynnik TBP wynosi odpowiednio 1000 W dla Instinct MI350X (tyle samo co w przypadku Instinct MI325X) oraz 1400 W dla Instinct MI355X. Jeśli chodzi o specyfikację, to AMD podaje tutaj przede wszystkim szczytową moc dla różnych typów obliczeń. Producent potwierdza jeszcze wykorzystanie 3 nm procesu technologicznego TSMC (N3P) oraz liczbę tranzystorów, która wynosi 185 miliardów. W porównaniu do poprzednich akceleratorów firmy, nowości oferują wsparcie także dla obliczeń typu FP6 oraz FP4. Jeśli chodzi o budowę, to zarówno Instinct MI350X jak i Instinct MI355X są wyposażone w 8 głównych kafelków o nazwie Accelerated Complex Dies (XCD) - to właśnie one wyprodukowane są w litografii TSMC N3P. Łącznie akceleratory posiadają 256 bloków Compute Units oraz po 16 384 procesory obliczeniowe. Co ciekawe, liczba jednostek zmniejszyła się względem Instinct MI325X, jednocześnie dzięki znacznie wydajniejszym rdzeniom Matrix (których notabene także jest mniej), we wszystkich typach obliczeń bazujących na liczbach zmiennoprzecinkowych, to układy CDNA 4 są znacznie wydajniejsze, co sugeruje ich sporą przebudowę i optymalizację w porównaniu do architektury CDNA 3.
AMD Instinct MI355X | AMD Instinct MI350X | NVIDIA B200 | AMD Instinct MI325X | |
Architektura | CDNA 4 | CDNA 4 | Blackwell | CDNA 3 |
Litografia | TSMC N3P (3 nm) | TSMC N3P (3 nm) | TSMC 4NP (4 nm) | TSMC N5+N6 (5 nm + 6 nm) |
Tranzystory | 185 mld | 185 mld | 208 mld | 153 mld |
Bloki obliczeniowe | 256 CU | 256 CU | 160 SM | 304 CU |
Procesory | 16 384 | 16 384 | 20 480 | 19 456 |
Rdzenie Matrix / Tensor | 1024 | 1024 | 528 | 1216 |
Pamięć | 288 GB HBM3e | 288 GB HBM3e | 192 GB HBM3e | 256 GB HBM3e |
Przepustowość | 8 TB/s | 8 TB/s | 8 TB/s | 6 TB/s |
Taktowanie (Peak) | 2200 MHz | 2200 MHz | 1837 MHz | 2100 MHz |
Moc FP64 (Peak) | 79 TFLOPS | 72 TFLOPS | ~40 TFLOPS | 81.7 TFLOPS |
Moc FP16 (Peak) | 5 PFLOPS | 4.6 PFLOPS | 4.5 PFLOPS | 1.3 PFLOPS |
Moc FP8 (Peak) | 10 PFLOPS | 9.2 PFLOPS | 9 PFLOPS | 2.61 PFLOPS |
Moc FP6 (Peak) | 20 PFLOPS | 18.4 PFLOPS | 9 PFLOPS | Brak obsługi |
Moc FP4 (Peak) | 20 PFLOPS | 18.4 PFLOPS | 18 PFLOPS | Brak obsługi |
TBP | 1400 W | 1000 W | 1000 W | 1000 W |
AMD Instinct MI325X - oficjalna prezentacja akceleratora dla sztucznej inteligencji. AMD zapowiada także układ Instinct MI355X
Tym czym AMD Instinct MI350X oraz Instinct MI355X zyskują względem poprzednika (Instinct MI325X), to możliwość przetwarzania obliczeń 4-bitowych oraz 6-bitowych liczb zmiennoprzecinkowych (odpowiednio FP4 oraz FP6). To z kolei umożliwia obsługiwanie kilkukrotnie większych typów obliczeń oraz znacznie większych modeli językowych na potrzeby wnioskowania AI. Dla obliczeń FP6 oraz FP4, szczytowa moc obliczeniowa AMD Instinct MI355X wynosi 20 petaflopów, natomiast dla Instinct MI350X to 18.4 petaflopów. Dla porównania, w akceleratorze NVIDIA B200 Blackwell jest to 18 petaflopów dla FP4 oraz 9 petaflopów dla FP6. AMD znacznie lepiej wypada także w obliczeniach podwójnej precyzji (FP64), gdzie moc sięga 79 TFLOPS dla Instinct MI355X oraz 72 TFLOPS dla Instinct MI350X. Wprawdzie Instinct MI325X wypada nadal lepiej (81.7 TFLOPS w szczycie), jednak rozwiązania AMD nadal prezentują się lepiej od NVIDII (~40 TFLOPS dla NVIDIA B200).
AMD Instinct MI355X oraz Instinct MI350X oferowane będą w dwóch wariantach, które wyróżniają się zastosowanym systemem chłodzenia. Pierwszy to klasyczna obudowa OAM z systemem chłodzenia powietrzem. Drugi to chłodzenie wodne, umieszczone bezpośrednio na akceleratorze. Jeśli chodzi o porównanie wydajności, to AMD chwali się m.in. ponad 3-krotnie wydajniejszym wnioskowaniem AI dla Instinct MI355X w porównaniu do Instinct MI300X. Największe różnice widoczne będą przy wykorzystywaniu chatbotów (ponad 4x wydajniej), nieco mniejsze różnice z kolei dotyczą chociażby generowania treści z pomocą AI. Dane te bazują na wykorzystaniu języka Llama 3.1 z 405 miliardami parametrów.
Jeśli chodzi o wykorzystanie innych modeli językowych, to w kolejnym porównaniu AMD przedstawia przykłady DeepSeek R1, Llama 3.3 70B oraz Llama 4 Maverick. W przypadku DeepSeek R1, Instinct MI355X wypada średnio 3-krotnie lepiej we wnioskowaniu, natomiast w dwóch pozostałych przypadkach jest już ponad 3-krotnie wydajniej. Oczywiście nadal mowa o zestawieniu z Instinct MI300X. Producent deklaruje również, że najnowsze rozwiązanie oparte na architekturze CDNA 4 jest w pełni konkurencyjne do akceleratorów NVIDIA B200 oraz GB200 (Grace-Blackwell), które korzystają z modeli TensorRT-LLM. AMD Instinct MI355X ma tu być od 20 do 30 procent wydajniejsze, gdy wykorzystywane są modele językowe DeepSeek R1 oraz Llama 3.1 405B, gdzie w obu przypadkach akceleratory przetwarzają obliczenia z użyciem 4-bitowych liczb zmiennoprzecinkowych. Idąc dalej w porównaniu do NVIDIA B200, akcelerator AMD Instinct MI355X ma charakteryzować się lepszym współczynnikiem dostępu do tokenów na każdy wydany dolar. Parametr ten ma być nawet o 40% lepszy na układzie CDNA 4. Podczas konferencji potwierdzono, że akceleratory AMD Instinct MI350X oraz Instinct MI355X są już dostępne dla klientów do zamówienia. Dalsze plany dotyczące rozwijania segmentu Data Center skupiają się na serii Instinct MI400 oraz procesorach EPYC Venice (Zen 6) oraz EPYC Verano (Zen 7?).
Powiązane publikacje

AMD Radeon RX 9070 XT - modele z pamięciami GDDR6 od Samsunga są trochę wolniejsze od tych z modułami od SK hynix
211
NVIDIA GeForce RTX 5050 - nowe informacje o najsłabszym Blackwellu. VRAM i sekcja zasilania zdradzają możliwości karty
43
AMD Instinct MI400 z 432 GB pamięci HBM4 zadebiutuje w 2026 roku. AMD EPYC Verano z premierą w 2027 roku
32
AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350
11