ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3
AMD przekroczyło próg, którego nie spodziewaliśmy się zobaczyć tak szybko. Startup Zyphra we współpracy z "czerwonymi" i IBM Cloud wytrenował ZAYA1, pierwszy duży model językowy typu Mixture-of-Experts stworzony całkowicie na platformie AMD, bez udziału układów NVIDII. To nie tylko techniczne osiągnięcie, ale potencjalnie punkt zwrotny w rywalizacji o rynek treningów AI wartych setki miliardów dolarów. Czy AMD z Instinct MI300X jest wiarygodną alternatywą?
Model językowy ZAYA1 to pierwszy dowód, że platforma AMD jest w pełni dojrzała do trenowania najbardziej zaawansowanych modeli AI na skalę produkcyjną bez kompromisów w kwestii wydajności.
Model ZAYA1 to więcej niż kolejny duży model językowy. Jego trening od początku do końca odbył się na 128 węzłach obliczeniowych wyposażonych w akceleratory AMD Instinct MI300X połączone siecią AMD Pensando Pollara 400 w infrastrukturze IBM Cloud. Całość działała wykorzystując otwarty stos oprogramowania ROCm. Dla AMD to historyczny moment, gdyż po raz pierwszy ktoś udowodnił, że można wytrenować zaawansowany model AI na skalę produkcyjną bez konieczności sięgania po karty NVIDII.
Technologia Mixture-of-Experts, zastosowana w ZAYA1, działa jak zespół specjalistów zamiast jednego uniwersalnego eksperta. Model składa się z 8,3 mld parametrów, ale w każdym momencie aktywnych jest tylko 760 mln. Wyobraźmy sobie to jak konsylium lekarskie, gdzie zamiast pytać wszystkich naraz, router kieruje zapytanie tylko do tych ekspertów, którzy znają się na konkretnym zagadnieniu. To jak posiadanie ośmiu specjalistycznych modeli, gdzie inteligentny system wybiera odpowiednią kombinację na podstawie typu zadania.
Wyniki benchmarków pokazują, że ZAYA1-base dorównuje lub przewyższa modele takie jak Llama-3-8B (Meta), OLMoE czy nawet zbliża się do wydajności Qwen3-4B (Alibaba) i Gemma3-12B (Google) w zadaniach związanych z rozumowaniem, matematyką i programowaniem. To imponujące, zważywszy na znacznie mniejszą liczbę aktywnych parametrów. Istotną rolę odegrały tu 192 GB pamięci HBM3 w każdym Instinct MI300X. Pozwoliło to uniknąć kosztownego dzielenia ekspertów między GPU, co upraszcza architekturę i zwiększa przepustowość. AMD i Zyphra zgłaszają także 10-krotnie szybszy czas zapisywania punktów kontrolnych modelu dzięki zoptymalizowanemu I/O w ROCm. W praktyce treningowej, gdzie awarie węzłów mogą kosztować dni pracy, to różnica między sukcesem a katastrofą. Klaster osiągnął ponad 750 petaflopów wydajności treningowej, a każdy węzeł dysponował 3,2 Tb/s przepustowości sieciowej dzięki ośmiu kartom Pensando Pollara 400 w topologii rails-only.
Dla AMD to także dowód dojrzałości całego ekosystemu. W poprzednich latach ROCm był krytykowany za niestabilność i problemy z kompatybilnością. Teraz Zyphra potwierdza, że platforma jest wystarczająco rozwinięta do produkcyjnych wdrożeń. To bezpośrednia odpowiedź na dominację CUDA i NVIDIA H100. MI300X ma przewagę w przepustowości pamięci (5,3 TB/s vs 4,8 TB/s w H200), co w zadaniach wymagających obsługi modeli z dużą liczbą parametrów daje wyraźną przewagę. Pozostaje pytanie o skalę. IBM i AMD zapowiadają rozbudowę klastra w 2026 roku. Jeśli ZAYA1 to dopiero początek, a kolejne generacje Instinct (MI325X już dostępny, MI350 zapowiedziany) będą kontynuować tę trajektorię, NVIDIA może po raz pierwszy od lat stanąć przed realną konkurencją w segmencie treningowym. To może zmusić Jensena Huanga do bardziej agresywnej polityki cenowej, co ostatecznie będzie korzystne dla całej branży AI.
Powiązane publikacje

AMD Ryzen 7 5800X3D 10th Anniversary Edition różni się od oryginału. Konieczne były drobne zmiany w konstrukcji
66
1 mikrometr między chipami? CEA-Leti pokazało, gdzie naprawdę zaczyna się następna wojna półprzewodników
9
AMD Ryzen 7 7700X3D już oficjalnie i z ceną. Firma zapowiada wydłużenie życia socketu AM5 co najmniej do 2029 roku
62
NVIDIA RTX Spark to układ łączący GPU Blackwell i rdzenie CPU ARM, przeznaczony dla laptopów i desktopów
20







![ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3 [1]](/image/news/2025/11/25_zaya1_pierwszym_modelem_mixture_of_experts_wytrenowanym_calkowicie_na_gpu_amd_instinct_mi300x_lepszym_od_llama_3_6.jpg)
![ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3 [2]](/image/news/2025/11/25_zaya1_pierwszym_modelem_mixture_of_experts_wytrenowanym_calkowicie_na_gpu_amd_instinct_mi300x_lepszym_od_llama_3_7.jpg)
![ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3 [3]](/image/news/2025/11/25_zaya1_pierwszym_modelem_mixture_of_experts_wytrenowanym_calkowicie_na_gpu_amd_instinct_mi300x_lepszym_od_llama_3_0.png)
![ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3 [4]](/image/news/2025/11/25_zaya1_pierwszym_modelem_mixture_of_experts_wytrenowanym_calkowicie_na_gpu_amd_instinct_mi300x_lepszym_od_llama_3_2.png)
![ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3 [5]](/image/news/2025/11/25_zaya1_pierwszym_modelem_mixture_of_experts_wytrenowanym_calkowicie_na_gpu_amd_instinct_mi300x_lepszym_od_llama_3_3.png)
![ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3 [6]](/image/news/2025/11/25_zaya1_pierwszym_modelem_mixture_of_experts_wytrenowanym_calkowicie_na_gpu_amd_instinct_mi300x_lepszym_od_llama_3_1.png)





