AMD ROCm 7 - premiera platformy obliczeniowej dla sztucznej inteligencji i rynku HPC, która przynosi znaczy wzrost wydajności
AMD ROCm (Radeon Open Compute) to otwartoźródłowa platforma obliczeń heterogenicznych, będąca odpowiedzią AMD na CUDA od NVIDIA. To zestaw narzędzi, bibliotek i sterowników umożliwiających uruchamianie kodu AI, obsługę popularnych frameworków uczenia maszynowego (takich jak PyTorch, TensorFlow czy ONNX), kompilację i optymalizację kodu obliczeniowego, a także dostęp do niskopoziomowych bibliotek sprzętowych.
AMD prezentuje nową iterację platformy ROCm 7, przeznaczoną do trenowania sztucznej inteligencji oraz zastosowań w obszarze HPC. Nowa wersja oprogramowania przynosi znaczny wzrost wydajności we wnioskowaniu popularnych modeli AI.
AMD Instinct MI350X oraz Instinct MI355X oficjalnie zaprezentowane - Akceleratory oparte na architekturze CDNA 4
AMD tworząc ROCm 7 w pierwszej kolejności skupiło się na rozszerzeniu wsparcia dla popularnych modeli i frameworków, ze szczególnym uwzględnieniem modeli europejskich. Ulepszono kompatybilność z takimi narzędziami jak PyTorch, JAX, MaxText, Torchtune czy Torch-Titan, a także postawiono na uproszczenie procesu konfiguracji, oferując rozwiązania typu „out of the box”. Istotną częścią zmian są również usprawnienia w zakresie paralelizacji (równoległości) – kluczowej przy trenowaniu dużych modeli językowych, których nie da się zmieścić w pamięci jednej karty graficznej. Wśród obsługiwanych technik znajduje się Data Parallelism (DP), gdzie każdy GPU trenuje kopię modelu na innym zbiorze danych, Pipeline Parallelism (PP), polegający na podziale warstw modelu między różne GPU oraz Tensor Parallelism (TP), który rozdziela operacje matematyczne w obrębie jednej warstwy.
AMD Instinct MI400 z 432 GB pamięci HBM4 zadebiutuje w 2026 roku. AMD EPYC Verano z premierą w 2027 roku
Nadto poprawiono obsługę techniki Fully Sharded Data Parallelism (FSDP), która umożliwia oszczędność pamięci dzięki dzieleniu parametrów między GPU oraz Checkpointing (CP), która zmniejsza zużycie pamięci przez ponowne obliczanie podczas wstecznej propagacji modelu, a także Expert Parallelism (EP), która pozwala na aktywację jedynie wybranych fragmentów modelu. Warto dodać, że w praktyce techniki te są często łączone – na przykład TP i DP lub FSDP i CP, aby maksymalnie zoptymalizować wydajność i wykorzystanie zasobów sprzętowych. W dziedzinie trenowania modeli udoskonalono również proces mnożenia dużych macierzy, czyli operacje typu GEMM, mechanizm Attention oraz wydajność przy dokładnościach BF16 i FP8.
AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350
W zakresie uruchamiania modeli, czyli wnioskowania, poszerzono wsparcie dla frameworków takich jak vLLM v1, llm-d oraz SG Lang. Zoptymalizowano również procesy rozproszonego wnioskowania (Distributed Inference) na wielu GPU i węzłach serwerowych, w tym obsługę fazy Prefill oraz mechanizmy dysagregacji (Disaggregation), czyli rozdzielania zadań między różne zasoby sprzętowe. Wprowadzono także autotuning dla operacji GEMM, umożliwiający automatyczny dobór optymalnych parametrów obliczeniowych. Ulepszono wsparcie dla modeli opartych na architekturze MoE (Mixture of Experts) oraz zoptymalizowano działanie mechanizmów Attention we wnioskowaniu. Dodatkowo umożliwiono tworzenie niestandardowych jąder obliczeniowych (kerneli) w języku Python, co ułatwia dostosowywanie wydajności. Najważniejszą zmianą pozostają jednak ulepszenia i optymalizacje dla obliczeń w formatach FP8, FP6, FP4 oraz ich wariantów mieszanych, które w pełni wykorzystują potencjał akceleratorów AMD Instinct MI350, o których więcej tutaj.
Test kart graficznych AMD Radeon RX 9060 XT vs NVIDIA GeForce RTX 5060 Ti - Waga kogucia doładowana 16 GB pamięci?
W kontekście realnych zastosowań AMD deklaruje trzykrotny średni wzrost wydajności w trenowaniu modeli w porównaniu do poprzedniej wersji ROCm. Dotyczy to m.in. modeli takich jak LLaMA 2 (70 mld parametrów), LLaMA 3.1 (8 mld) oraz Qwen 1.5 (7 mld), który osiągnął wzrost na poziomie x3,1. Jeszcze większe przyspieszenie zanotowano we wnioskowaniu, gdzie średni wzrost wynosi x3,5. Przykładowo: LLaMA 3.1 (70 mld) działa x3,2 szybciej, Qwen 2 (72 mld) x3,4, a DeepSeek R1 aż x3,8 szybciej względem ROCm 6. AMD zapowiedziało również, że ROCm 7 wyjdzie poza środowiska serwerowe i chmurowe, platforma ma trafić także na laptopy z procesorami Ryzen oraz stacje robocze, jednak wdrożenie tej funkcjonalności planowane jest dopiero na drugą połowę 2025 roku. Podsumowując, mówimy tu o naprawdę sporej aktualizacji i wzroście wydajności w obsłudze i szkoleniu sztucznej inteligencji, która znacząco przybliża AMD do pełnoprawnej konkurencji z platformą CUDA od NVIDIA.
Powiązane publikacje

Koniec z przycięciami w grach. Inżynier Epic Games pokazuje, jak naprawić najbardziej irytujące problemy w Unreal Engine
24
AMD Variable Graphics Memory w Ryzen AI Max+ pozwala przydzielać pamięć RAM jako VRAM zaawansowanym modelom AI
27
OpenAI łączy modele GPT i o-series w jednym potężnym systemie GPT-5, który ma mieć debiut już w sierpniu
20
Blender trafi na tablety Apple iPad Pro. Program do grafiki 3D zawita też do modeli z Androidem na pokładzie
9