AMD Instinct MI300X - premiera topowego akceleratora CDNA 3 dla rynku AI. Firma chwali się wydajnością względem NVIDIA H100
Dziś (6 grudnia 2023 roku) odbyła się zapowiedziana jakiś czas temu konferencja firmy AMD pod nazwą Advancing AI. Tematem przewodnim była dziedzina sztucznej inteligencji. Na wydarzeniu swoją oficjalną premierę miał akcelerator graficzny z rodziny AMD Instinct MI300, a konkretniej model MI300X. Został on stworzony do obliczeń związanych z AI, a jego konkurencją jest układ NVIDIA H100. Natomiast jednostka od AMD okazuje się aż o 60% wydajniejsza.
AMD ogłosiło wprowadzenie na rynek akceleratora graficznego do zadań związanych ze sztuczną inteligencją. AMD Instinct MI300X ma się okazać aż o 60% wydajniejszy od konkurencyjnego układu NVIDIA H100.
AMD Instinct MI300X cechuje się pokaźnym poborem mocy. Jest sporo wyższy niż w przypadku Instinct MI250X
Tak naprawdę o omawianym akceleratorze graficznym od AMD wiedzieliśmy już niemalże wszystko, a podczas samej prezentacji pokazano dodatkowo, jak wydajny jest AMD Instinct MI300X w różnych zadaniach w bezpośrednim porównaniu ze wspomnianym układem NVIDIA H100. Dla przypomnienia mamy do czynienia z jednostką opartą na architekturze CDNA 3, która korzysta ze 192 GB pamięci HBM3 o przepustowości 5,2 TB/s. AMD Instinct MI300X składa się ze 153 miliardów tranzystorów. Osiem akceleratorów można połączyć w większą całość (AMD Instinct Platform), dzięki czemu uzyskuje się lepszą wydajność. Pod względem samej specyfikacji akcelerator graficzny NVIDIA H100 wypada dużo gorzej i to tak naprawdę pod każdym względem. Przekłada się to również na wyniki, które zaprezentowało AMD.
AMD Instinct MI300A oraz Instinct MI300X - akceleratory graficzne CDNA 3 z maksymalnie 192 GB pamięci HBM3
Moc obliczeniowa FP8 oraz FP16 jest 1,3x większa niż w układzie Zielonych. Jeśli chodzi o obsługę dużych modeli językowych, to AMD Instinct MI300X jest szybszy od omawianego NVIDIA H100 o 20% w przypadku modelu Llama 2 (70 mld parametrów) i aż o 40%, jeśli porównamy obie konfiguracje, które składają się z 8 akceleratorów graficznych. Analogicznie w przypadku modelu Bloom (176 mld parametrów) jest to 40 i 60% (na korzyść AMD). Za działanie układu AMD odpowiada oprogramowanie ROCm, które zostało zaktualizowane do wersji 6.0 i oferuje teraz nowe funkcje związane z obsługą sztucznej inteligencji. Zoptymalizowano także wydajność w dużych modelach językowych (LLM) oraz zadaniach związanych z generatywną AI. Dodano również wsparcie dla formatów obliczeniowych, takich jak FP8, FP16 i Bf16.
NVIDIA H100 PCIe | AMD Instinct MI250 | AMD Instinct MI250X | AMD Instinct MI300X | |
Architektura | Hopper | CDNA 2 | CDNA 2 | CDNA 3 |
Budowa | Monolit | MCM | MCM | MCM |
Litografia | TSMC 4 nm | TSMC 6 nm | TSMC 6 nm | TSMC 5 nm TSMC 6 nm FinFET |
Tranzystory | 80 mld | 58,2 mld | 58,2 mld | 153 mld |
Bloki CU/SM | 114 | 208 | 220 | 304 |
Procesory | 14592 | 13312 | 14080 | 19456 |
Rdzenie Matrix | - | 832 | 880 | ? |
Rdzenie Tensor | 456 (4 per SM) | - | - | - |
Taktowanie Boost | Brak informacji | 1700 MHz | 1700 MHz | 2100 MHz |
Moc FP32 | 48,0 TFLOPS | 45,3 TFLOPS | 47,9 TFLOPS | 163,4 TFLOPS |
Moc FP32 Matrix | - | 90,5 TFLOPS | 95,7 TFLOPS | 163,4 TFLOPS |
Moc FP64 | 24,0 TFLOPS | 45,3 TFLOPS | 47,9 TFLOPS | 81,7 TFLOPS |
Moc FP64 Matrix | - | 90,5 TFLOPS | 95,7 TFLOPS | 163,4 TFLOPS |
Pamięć | 80 GB HBM3 | 128 GB HBM2e | 128 GB HBM2e | 192 GB HBM3 |
Magistrala | 5120-bit | 8192-bit | 8192-bit | 8192-bit |
Przepustowość | 2 TB/s | 3,2 TB/s | 3,2 TB/s | 5,2 TB/s |
Pobór mocy | 350 W | 560 W | 560 W | ? |
Powiązane publikacje
![NVIDIA GeForce RTX 3050 A - nowy wariant układu graficznego dla laptopów może wykorzystać okrojone rdzenie Ada Lovelace](/files/Image/m165/44308.png)
NVIDIA GeForce RTX 3050 A - nowy wariant układu graficznego dla laptopów może wykorzystać okrojone rdzenie Ada Lovelace
12![NVIDIA przygotowuje kartę graficzną TITAN bazującą na architekturze Blackwell. Ale czy ujrzy ona światło dzienne?](/files/Image/m165/44276.png)
NVIDIA przygotowuje kartę graficzną TITAN bazującą na architekturze Blackwell. Ale czy ujrzy ona światło dzienne?
44![NVIDIA B20 - trwają prace nad akceleratorem AI z rodziny Blackwell, który będzie mógł bez przeszkód zadebiutować w Chinach](/files/Image/m165/44265.png)
NVIDIA B20 - trwają prace nad akceleratorem AI z rodziny Blackwell, który będzie mógł bez przeszkód zadebiutować w Chinach
14![NVIDIA GeForce RTX 50 - układy mogą zadebiutować później niż sądzono. Mamy złe wieści dla niecierpliwych graczy i entuzjastów](/files/Image/m165/44263.png)
NVIDIA GeForce RTX 50 - układy mogą zadebiutować później niż sądzono. Mamy złe wieści dla niecierpliwych graczy i entuzjastów
63![AMD Radeon 880M - ASUS chwali się wydajnością układu RDNA 3.5 na tle Radeon 780M i GeForce RTX 3050 40 W](/files/Image/m165/44226.png)