Zgłoś błąd
X
Zanim wyślesz zgłoszenie, upewnij się że przyczyną problemów nie jest dodatek blokujący reklamy.
Błędy w spisie treści artykułu zgłaszaj jako "błąd w TREŚCI".
Typ zgłoszenia
Treść zgłoszenia
Twój email (opcjonalnie)
Nie wypełniaj tego pola
Załóż konto
EnglishDeutschукраїнськийFrançaisEspañol中国

ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3

Maciej Lewczuk | 25-11-2025 12:00 |

ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3AMD przekroczyło próg, którego nie spodziewaliśmy się zobaczyć tak szybko. Startup Zyphra we współpracy z "czerwonymi" i IBM Cloud wytrenował ZAYA1, pierwszy duży model językowy typu Mixture-of-Experts stworzony całkowicie na platformie AMD, bez udziału układów NVIDII. To nie tylko techniczne osiągnięcie, ale potencjalnie punkt zwrotny w rywalizacji o rynek treningów AI wartych setki miliardów dolarów. Czy AMD z Instinct MI300X jest wiarygodną alternatywą?

Model językowy ZAYA1 to pierwszy dowód, że platforma AMD jest w pełni dojrzała do trenowania najbardziej zaawansowanych modeli AI na skalę produkcyjną bez kompromisów w kwestii wydajności.

ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3 [1]

Model ZAYA1 to więcej niż kolejny duży model językowy. Jego trening od początku do końca odbył się na 128 węzłach obliczeniowych wyposażonych w akceleratory AMD Instinct MI300X połączone siecią AMD Pensando Pollara 400 w infrastrukturze IBM Cloud. Całość działała wykorzystując otwarty stos oprogramowania ROCm. Dla AMD to historyczny moment, gdyż po raz pierwszy ktoś udowodnił, że można wytrenować zaawansowany model AI na skalę produkcyjną bez konieczności sięgania po karty NVIDII.

ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3 [2]

ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3 [3]

Technologia Mixture-of-Experts, zastosowana w ZAYA1, działa jak zespół specjalistów zamiast jednego uniwersalnego eksperta. Model składa się z 8,3 mld parametrów, ale w każdym momencie aktywnych jest tylko 760 mln. Wyobraźmy sobie to jak konsylium lekarskie, gdzie zamiast pytać wszystkich naraz, router kieruje zapytanie tylko do tych ekspertów, którzy znają się na konkretnym zagadnieniu. To jak posiadanie ośmiu specjalistycznych modeli, gdzie inteligentny system wybiera odpowiednią kombinację na podstawie typu zadania.

ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3 [4]

Wyniki benchmarków pokazują, że ZAYA1-base dorównuje lub przewyższa modele takie jak Llama-3-8B (Meta), OLMoE czy nawet zbliża się do wydajności Qwen3-4B (Alibaba) i Gemma3-12B (Google) w zadaniach związanych z rozumowaniem, matematyką i programowaniem. To imponujące, zważywszy na znacznie mniejszą liczbę aktywnych parametrów. Istotną rolę odegrały tu 192 GB pamięci HBM3 w każdym Instinct MI300X. Pozwoliło to uniknąć kosztownego dzielenia ekspertów między GPU, co upraszcza architekturę i zwiększa przepustowość. AMD i Zyphra zgłaszają także 10-krotnie szybszy czas zapisywania punktów kontrolnych modelu dzięki zoptymalizowanemu I/O w ROCm. W praktyce treningowej, gdzie awarie węzłów mogą kosztować dni pracy, to różnica między sukcesem a katastrofą. Klaster osiągnął ponad 750 petaflopów wydajności treningowej, a każdy węzeł dysponował 3,2 Tb/s przepustowości sieciowej dzięki ośmiu kartom Pensando Pollara 400 w topologii rails-only.

Dla AMD to także dowód dojrzałości całego ekosystemu. W poprzednich latach ROCm był krytykowany za niestabilność i problemy z kompatybilnością. Teraz Zyphra potwierdza, że platforma jest wystarczająco rozwinięta do produkcyjnych wdrożeń. To bezpośrednia odpowiedź na dominację CUDA i NVIDIA H100. MI300X ma przewagę w przepustowości pamięci (5,3 TB/s vs 4,8 TB/s w H200), co w zadaniach wymagających obsługi modeli z dużą liczbą parametrów daje wyraźną przewagę. Pozostaje pytanie o skalę. IBM i AMD zapowiadają rozbudowę klastra w 2026 roku. Jeśli ZAYA1 to dopiero początek, a kolejne generacje Instinct (MI325X już dostępny, MI350 zapowiedziany) będą kontynuować tę trajektorię, NVIDIA może po raz pierwszy od lat stanąć przed realną konkurencją w segmencie treningowym. To może zmusić Jensena Huanga do bardziej agresywnej polityki cenowej, co ostatecznie będzie korzystne dla całej branży AI.

ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3 [5]ZAYA1 pierwszym modelem Mixture-of-Experts wytrenowanym całkowicie na GPU AMD Instinct MI300X lepszym od Llama-3 [6]

Źródło: AMD, Zyphra Technical Report (arXiv)
Bądź na bieżąco - obserwuj PurePC.pl na Google News
Zgłoś błąd
Liczba komentarzy: 10

Komentarze:

x Wydawca serwisu PurePC.pl informuje, że na swoich stronach www stosuje pliki cookies (tzw. ciasteczka). Kliknij zgadzam się, aby ta informacja nie pojawiała się więcej. Kliknij polityka cookies, aby dowiedzieć się więcej, w tym jak zarządzać plikami cookies za pośrednictwem swojej przeglądarki.