AMD ROCm 7 - premiera platformy obliczeniowej dla sztucznej inteligencji i rynku HPC, która przynosi znaczy wzrost wydajności
AMD ROCm (Radeon Open Compute) to otwartoźródłowa platforma obliczeń heterogenicznych, będąca odpowiedzią AMD na CUDA od NVIDIA. To zestaw narzędzi, bibliotek i sterowników umożliwiających uruchamianie kodu AI, obsługę popularnych frameworków uczenia maszynowego (takich jak PyTorch, TensorFlow czy ONNX), kompilację i optymalizację kodu obliczeniowego, a także dostęp do niskopoziomowych bibliotek sprzętowych.
AMD prezentuje nową iterację platformy ROCm 7, przeznaczoną do trenowania sztucznej inteligencji oraz zastosowań w obszarze HPC. Nowa wersja oprogramowania przynosi znaczny wzrost wydajności we wnioskowaniu popularnych modeli AI.
AMD Instinct MI350X oraz Instinct MI355X oficjalnie zaprezentowane - Akceleratory oparte na architekturze CDNA 4
AMD tworząc ROCm 7 w pierwszej kolejności skupiło się na rozszerzeniu wsparcia dla popularnych modeli i frameworków, ze szczególnym uwzględnieniem modeli europejskich. Ulepszono kompatybilność z takimi narzędziami jak PyTorch, JAX, MaxText, Torchtune czy Torch-Titan, a także postawiono na uproszczenie procesu konfiguracji, oferując rozwiązania typu „out of the box”. Istotną częścią zmian są również usprawnienia w zakresie paralelizacji (równoległości) – kluczowej przy trenowaniu dużych modeli językowych, których nie da się zmieścić w pamięci jednej karty graficznej. Wśród obsługiwanych technik znajduje się Data Parallelism (DP), gdzie każdy GPU trenuje kopię modelu na innym zbiorze danych, Pipeline Parallelism (PP), polegający na podziale warstw modelu między różne GPU oraz Tensor Parallelism (TP), który rozdziela operacje matematyczne w obrębie jednej warstwy.
AMD Instinct MI400 z 432 GB pamięci HBM4 zadebiutuje w 2026 roku. AMD EPYC Verano z premierą w 2027 roku
Nadto poprawiono obsługę techniki Fully Sharded Data Parallelism (FSDP), która umożliwia oszczędność pamięci dzięki dzieleniu parametrów między GPU oraz Checkpointing (CP), która zmniejsza zużycie pamięci przez ponowne obliczanie podczas wstecznej propagacji modelu, a także Expert Parallelism (EP), która pozwala na aktywację jedynie wybranych fragmentów modelu. Warto dodać, że w praktyce techniki te są często łączone – na przykład TP i DP lub FSDP i CP, aby maksymalnie zoptymalizować wydajność i wykorzystanie zasobów sprzętowych. W dziedzinie trenowania modeli udoskonalono również proces mnożenia dużych macierzy, czyli operacje typu GEMM, mechanizm Attention oraz wydajność przy dokładnościach BF16 i FP8.
AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350
W zakresie uruchamiania modeli, czyli wnioskowania, poszerzono wsparcie dla frameworków takich jak vLLM v1, llm-d oraz SG Lang. Zoptymalizowano również procesy rozproszonego wnioskowania (Distributed Inference) na wielu GPU i węzłach serwerowych, w tym obsługę fazy Prefill oraz mechanizmy dysagregacji (Disaggregation), czyli rozdzielania zadań między różne zasoby sprzętowe. Wprowadzono także autotuning dla operacji GEMM, umożliwiający automatyczny dobór optymalnych parametrów obliczeniowych. Ulepszono wsparcie dla modeli opartych na architekturze MoE (Mixture of Experts) oraz zoptymalizowano działanie mechanizmów Attention we wnioskowaniu. Dodatkowo umożliwiono tworzenie niestandardowych jąder obliczeniowych (kerneli) w języku Python, co ułatwia dostosowywanie wydajności. Najważniejszą zmianą pozostają jednak ulepszenia i optymalizacje dla obliczeń w formatach FP8, FP6, FP4 oraz ich wariantów mieszanych, które w pełni wykorzystują potencjał akceleratorów AMD Instinct MI350, o których więcej tutaj.
Test kart graficznych AMD Radeon RX 9060 XT vs NVIDIA GeForce RTX 5060 Ti - Waga kogucia doładowana 16 GB pamięci?
W kontekście realnych zastosowań AMD deklaruje trzykrotny średni wzrost wydajności w trenowaniu modeli w porównaniu do poprzedniej wersji ROCm. Dotyczy to m.in. modeli takich jak LLaMA 2 (70 mld parametrów), LLaMA 3.1 (8 mld) oraz Qwen 1.5 (7 mld), który osiągnął wzrost na poziomie x3,1. Jeszcze większe przyspieszenie zanotowano we wnioskowaniu, gdzie średni wzrost wynosi x3,5. Przykładowo: LLaMA 3.1 (70 mld) działa x3,2 szybciej, Qwen 2 (72 mld) x3,4, a DeepSeek R1 aż x3,8 szybciej względem ROCm 6. AMD zapowiedziało również, że ROCm 7 wyjdzie poza środowiska serwerowe i chmurowe, platforma ma trafić także na laptopy z procesorami Ryzen oraz stacje robocze, jednak wdrożenie tej funkcjonalności planowane jest dopiero na drugą połowę 2025 roku. Podsumowując, mówimy tu o naprawdę sporej aktualizacji i wzroście wydajności w obsłudze i szkoleniu sztucznej inteligencji, która znacząco przybliża AMD do pełnoprawnej konkurencji z platformą CUDA od NVIDIA.
Powiązane publikacje

Kolejna usługa od Google wkrótce straci ważność. Gry bez instalacji na Androidzie odejdą jeszcze w 2025 roku
0
Bielik AI z oficjalnym wsparciem NVIDIA. Polski model językowy wkracza do europejskiej ekstraklasy
35
Android 16 już dostępny, ale bez Material 3 Expressive. Nadchodzą powiadomienia na żywo i alternatywa dla Samsung DeX
24
FAA wycofuje dyskietki i Windows 95 z systemów kontroli ruchu lotniczego. Rusza cyfrowa modernizacja infrastruktury lotniczej
43