Zgłoś błąd
X
Zanim wyślesz zgłoszenie, upewnij się że przyczyną problemów nie jest dodatek blokujący reklamy.
Błędy w spisie treści artykułu zgłaszaj jako "błąd w TREŚCI".
Typ zgłoszenia
Treść zgłoszenia
Twój email (opcjonalnie)
Nie wypełniaj tego pola
Załóż konto
EnglishDeutschукраїнськийFrançaisEspañol中国

AMD ROCm 7 - premiera platformy obliczeniowej dla sztucznej inteligencji i rynku HPC, która przynosi znaczy wzrost wydajności

Mateusz Szlęzak | 13-06-2025 09:00 |

AMD ROCm 7 - premiera platformy obliczeniowej dla sztucznej inteligencji i rynku HPC, która przynosi znaczy wzrost wydajnościAMD ROCm (Radeon Open Compute) to otwartoźródłowa platforma obliczeń heterogenicznych, będąca odpowiedzią AMD na CUDA od NVIDIA. To zestaw narzędzi, bibliotek i sterowników umożliwiających uruchamianie kodu AI, obsługę popularnych frameworków uczenia maszynowego (takich jak PyTorch, TensorFlow czy ONNX), kompilację i optymalizację kodu obliczeniowego, a także dostęp do niskopoziomowych bibliotek sprzętowych.

AMD prezentuje nową iterację platformy ROCm 7, przeznaczoną do trenowania sztucznej inteligencji oraz zastosowań w obszarze HPC. Nowa wersja oprogramowania przynosi znaczny wzrost wydajności we wnioskowaniu popularnych modeli AI.

AMD ROCm 7 - premiera platformy obliczeniowej dla sztucznej inteligencji i rynku HPC, która przynosi znaczy wzrost wydajności [1]

AMD Instinct MI350X oraz Instinct MI355X oficjalnie zaprezentowane - Akceleratory oparte na architekturze CDNA 4

AMD tworząc ROCm 7 w pierwszej kolejności skupiło się na rozszerzeniu wsparcia dla popularnych modeli i frameworków, ze szczególnym uwzględnieniem modeli europejskich. Ulepszono kompatybilność z takimi narzędziami jak PyTorch, JAX, MaxText, Torchtune czy Torch-Titan, a także postawiono na uproszczenie procesu konfiguracji, oferując rozwiązania typu „out of the box”. Istotną częścią zmian są również usprawnienia w zakresie paralelizacji (równoległości) – kluczowej przy trenowaniu dużych modeli językowych, których nie da się zmieścić w pamięci jednej karty graficznej. Wśród obsługiwanych technik znajduje się Data Parallelism (DP), gdzie każdy GPU trenuje kopię modelu na innym zbiorze danych, Pipeline Parallelism (PP), polegający na podziale warstw modelu między różne GPU oraz Tensor Parallelism (TP), który rozdziela operacje matematyczne w obrębie jednej warstwy.

AMD ROCm 7 - premiera platformy obliczeniowej dla sztucznej inteligencji i rynku HPC, która przynosi znaczy wzrost wydajności [2]

AMD Instinct MI400 z 432 GB pamięci HBM4 zadebiutuje w 2026 roku. AMD EPYC Verano z premierą w 2027 roku

Nadto poprawiono obsługę techniki Fully Sharded Data Parallelism (FSDP), która umożliwia oszczędność pamięci dzięki dzieleniu parametrów między GPU oraz Checkpointing (CP), która zmniejsza zużycie pamięci przez ponowne obliczanie podczas wstecznej propagacji modelu, a także Expert Parallelism (EP), która pozwala na aktywację jedynie wybranych fragmentów modelu. Warto dodać, że w praktyce techniki te są często łączone – na przykład TP i DP lub FSDP i CP, aby maksymalnie zoptymalizować wydajność i wykorzystanie zasobów sprzętowych. W dziedzinie trenowania modeli udoskonalono również proces mnożenia dużych macierzy, czyli operacje typu GEMM, mechanizm Attention oraz wydajność przy dokładnościach BF16 i FP8.

AMD ROCm 7 - premiera platformy obliczeniowej dla sztucznej inteligencji i rynku HPC, która przynosi znaczy wzrost wydajności [3]

AMD ROCm 7 - premiera platformy obliczeniowej dla sztucznej inteligencji i rynku HPC, która przynosi znaczy wzrost wydajności [4]

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350

W zakresie uruchamiania modeli, czyli wnioskowania, poszerzono wsparcie dla frameworków takich jak vLLM v1, llm-d oraz SG Lang. Zoptymalizowano również procesy rozproszonego wnioskowania (Distributed Inference) na wielu GPU i węzłach serwerowych, w tym obsługę fazy Prefill oraz mechanizmy dysagregacji (Disaggregation), czyli rozdzielania zadań między różne zasoby sprzętowe. Wprowadzono także autotuning dla operacji GEMM, umożliwiający automatyczny dobór optymalnych parametrów obliczeniowych. Ulepszono wsparcie dla modeli opartych na architekturze MoE (Mixture of Experts) oraz zoptymalizowano działanie mechanizmów Attention we wnioskowaniu. Dodatkowo umożliwiono tworzenie niestandardowych jąder obliczeniowych (kerneli) w języku Python, co ułatwia dostosowywanie wydajności. Najważniejszą zmianą pozostają jednak ulepszenia i optymalizacje dla obliczeń w formatach FP8, FP6, FP4 oraz ich wariantów mieszanych, które w pełni wykorzystują potencjał akceleratorów AMD Instinct MI350, o których więcej tutaj.

AMD ROCm 7 - premiera platformy obliczeniowej dla sztucznej inteligencji i rynku HPC, która przynosi znaczy wzrost wydajności [5]

Test kart graficznych AMD Radeon RX 9060 XT vs NVIDIA GeForce RTX 5060 Ti - Waga kogucia doładowana 16 GB pamięci?

W kontekście realnych zastosowań AMD deklaruje trzykrotny średni wzrost wydajności w trenowaniu modeli w porównaniu do poprzedniej wersji ROCm. Dotyczy to m.in. modeli takich jak LLaMA 2 (70 mld parametrów), LLaMA 3.1 (8 mld) oraz Qwen 1.5 (7 mld), który osiągnął wzrost na poziomie x3,1. Jeszcze większe przyspieszenie zanotowano we wnioskowaniu, gdzie średni wzrost wynosi x3,5. Przykładowo: LLaMA 3.1 (70 mld) działa x3,2 szybciej, Qwen 2 (72 mld) x3,4, a DeepSeek R1 aż x3,8 szybciej względem ROCm 6. AMD zapowiedziało również, że ROCm 7 wyjdzie poza środowiska serwerowe i chmurowe, platforma ma trafić także na laptopy z procesorami Ryzen oraz stacje robocze, jednak wdrożenie tej funkcjonalności planowane jest dopiero na drugą połowę 2025 roku. Podsumowując, mówimy tu o naprawdę sporej aktualizacji i wzroście wydajności w obsłudze i szkoleniu sztucznej inteligencji, która znacząco przybliża AMD do pełnoprawnej konkurencji z platformą CUDA od NVIDIA.

AMD ROCm 7 - premiera platformy obliczeniowej dla sztucznej inteligencji i rynku HPC, która przynosi znaczy wzrost wydajności [6]

Źródło: AMD, PurePC
Bądź na bieżąco - obserwuj PurePC.pl na Google News
Zgłoś błąd
Liczba komentarzy: 11

Komentarze:

x Wydawca serwisu PurePC.pl informuje, że na swoich stronach www stosuje pliki cookies (tzw. ciasteczka). Kliknij zgadzam się, aby ta informacja nie pojawiała się więcej. Kliknij polityka cookies, aby dowiedzieć się więcej, w tym jak zarządzać plikami cookies za pośrednictwem swojej przeglądarki.