AMD ROCm 7 - premiera platformy obliczeniowej dla sztucznej inteligencji i rynku HPC, która przynosi znaczy wzrost wydajności

Mateusz Szlęzak | 13-06-2025 09:00 |

Oprogramowanie

AMD ROCm 7 - premiera platformy obliczeniowej dla sztucznej inteligencji i rynku HPC, która przynosi znaczy wzrost wydajności AMD ROCm (Radeon Open Compute) to otwartoźródłowa platforma obliczeń heterogenicznych, będąca odpowiedzią AMD na CUDA od NVIDIA. To zestaw narzędzi, bibliotek i sterowników umożliwiających uruchamianie kodu AI, obsługę popularnych frameworków uczenia maszynowego (takich jak PyTorch, TensorFlow czy ONNX), kompilację i optymalizację kodu obliczeniowego, a także dostęp do niskopoziomowych bibliotek sprzętowych.

AMD prezentuje nową iterację platformy ROCm 7, przeznaczoną do trenowania sztucznej inteligencji oraz zastosowań w obszarze HPC. Nowa wersja oprogramowania przynosi znaczny wzrost wydajności we wnioskowaniu popularnych modeli AI.

AMD Instinct MI350X oraz Instinct MI355X oficjalnie zaprezentowane - Akceleratory oparte na architekturze CDNA 4

AMD tworząc ROCm 7 w pierwszej kolejności skupiło się na rozszerzeniu wsparcia dla popularnych modeli i frameworków, ze szczególnym uwzględnieniem modeli europejskich. Ulepszono kompatybilność z takimi narzędziami jak PyTorch, JAX, MaxText, Torchtune czy Torch-Titan, a także postawiono na uproszczenie procesu konfiguracji, oferując rozwiązania typu „out of the box”. Istotną częścią zmian są również usprawnienia w zakresie paralelizacji (równoległości) – kluczowej przy trenowaniu dużych modeli językowych, których nie da się zmieścić w pamięci jednej karty graficznej. Wśród obsługiwanych technik znajduje się Data Parallelism (DP), gdzie każdy GPU trenuje kopię modelu na innym zbiorze danych, Pipeline Parallelism (PP), polegający na podziale warstw modelu między różne GPU oraz Tensor Parallelism (TP), który rozdziela operacje matematyczne w obrębie jednej warstwy.

AMD Instinct MI400 z 432 GB pamięci HBM4 zadebiutuje w 2026 roku. AMD EPYC Verano z premierą w 2027 roku

Nadto poprawiono obsługę techniki Fully Sharded Data Parallelism (FSDP), która umożliwia oszczędność pamięci dzięki dzieleniu parametrów między GPU oraz Checkpointing (CP), która zmniejsza zużycie pamięci przez ponowne obliczanie podczas wstecznej propagacji modelu, a także Expert Parallelism (EP), która pozwala na aktywację jedynie wybranych fragmentów modelu. Warto dodać, że w praktyce techniki te są często łączone – na przykład TP i DP lub FSDP i CP, aby maksymalnie zoptymalizować wydajność i wykorzystanie zasobów sprzętowych. W dziedzinie trenowania modeli udoskonalono również proces mnożenia dużych macierzy, czyli operacje typu GEMM, mechanizm Attention oraz wydajność przy dokładnościach BF16 i FP8.

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350

W zakresie uruchamiania modeli, czyli wnioskowania, poszerzono wsparcie dla frameworków takich jak vLLM v1, llm-d oraz SG Lang. Zoptymalizowano również procesy rozproszonego wnioskowania (Distributed Inference) na wielu GPU i węzłach serwerowych, w tym obsługę fazy Prefill oraz mechanizmy dysagregacji (Disaggregation), czyli rozdzielania zadań między różne zasoby sprzętowe. Wprowadzono także autotuning dla operacji GEMM, umożliwiający automatyczny dobór optymalnych parametrów obliczeniowych. Ulepszono wsparcie dla modeli opartych na architekturze MoE (Mixture of Experts) oraz zoptymalizowano działanie mechanizmów Attention we wnioskowaniu. Dodatkowo umożliwiono tworzenie niestandardowych jąder obliczeniowych (kerneli) w języku Python, co ułatwia dostosowywanie wydajności. Najważniejszą zmianą pozostają jednak ulepszenia i optymalizacje dla obliczeń w formatach FP8, FP6, FP4 oraz ich wariantów mieszanych, które w pełni wykorzystują potencjał akceleratorów AMD Instinct MI350, o których więcej tutaj.

Test kart graficznych AMD Radeon RX 9060 XT vs NVIDIA GeForce RTX 5060 Ti - Waga kogucia doładowana 16 GB pamięci?

W kontekście realnych zastosowań AMD deklaruje trzykrotny średni wzrost wydajności w trenowaniu modeli w porównaniu do poprzedniej wersji ROCm. Dotyczy to m.in. modeli takich jak LLaMA 2 (70 mld parametrów), LLaMA 3.1 (8 mld) oraz Qwen 1.5 (7 mld), który osiągnął wzrost na poziomie x3,1. Jeszcze większe przyspieszenie zanotowano we wnioskowaniu, gdzie średni wzrost wynosi x3,5. Przykładowo: LLaMA 3.1 (70 mld) działa x3,2 szybciej, Qwen 2 (72 mld) x3,4, a DeepSeek R1 aż x3,8 szybciej względem ROCm 6. AMD zapowiedziało również, że ROCm 7 wyjdzie poza środowiska serwerowe i chmurowe, platforma ma trafić także na laptopy z procesorami Ryzen oraz stacje robocze, jednak wdrożenie tej funkcjonalności planowane jest dopiero na drugą połowę 2025 roku. Podsumowując, mówimy tu o naprawdę sporej aktualizacji i wzroście wydajności w obsłudze i szkoleniu sztucznej inteligencji, która znacząco przybliża AMD do pełnoprawnej konkurencji z platformą CUDA od NVIDIA.

Źródło: AMD, PurePC

Bądź na bieżąco - obserwuj PurePC.pl na Google News

Tagi:

Zgłoś błąd

Powiązane publikacje

Nadzór nad AI zawiódł. Jak warty 2,8 mln dolarów raport rządowy został podważony przez nieweryfikowane dane z modelu LLM

MSI Afterburner 4.6.6 Beta 5 wprowadza obsługę trzykanałowego sterowania napięciem dla autorskich kart MSI GeForce RTX 5000

Przeglądarka Firefox może już odtwarzać pliki MKV. Mozilla dodaje wsparcie dla standardu Matroska, choć są pewne ograniczenia

Aktualizacja Rufus 4.10 dodaje kompatybilność z Windows 11 25H2 ISO oraz funkcję zapisywania dysków do formatu ISO

Koniec dominacji OpenAI w Microsoft. Firma znalazła lepszą AI dla pakietu Office i nie zawaha się jej użyć. To cios dla twórców ChatGPT

Liczba komentarzy: 11

Komentarze:

Załaduj komentarze

AMD ROCm 7 - premiera platformy obliczeniowej dla sztucznej inteligencji i rynku HPC, która przynosi znaczy wzrost wydajności

AMD prezentuje nową iterację platformy ROCm 7, przeznaczoną do trenowania sztucznej inteligencji oraz zastosowań w obszarze HPC. Nowa wersja oprogramowania przynosi znaczny wzrost wydajności we wnioskowaniu popularnych modeli AI.

AMD Instinct MI350X oraz Instinct MI355X oficjalnie zaprezentowane - Akceleratory oparte na architekturze CDNA 4

AMD Instinct MI400 z 432 GB pamięci HBM4 zadebiutuje w 2026 roku. AMD EPYC Verano z premierą w 2027 roku

AMD CDNA 4 - opis architektury dla akceleratorów do sztucznej inteligencji na przykładzie układów z serii Instinct MI350

Test kart graficznych AMD Radeon RX 9060 XT vs NVIDIA GeForce RTX 5060 Ti - Waga kogucia doładowana 16 GB pamięci?

Powiązane publikacje

Nadzór nad AI zawiódł. Jak warty 2,8 mln dolarów raport rządowy został podważony przez nieweryfikowane dane z modelu LLM

MSI Afterburner 4.6.6 Beta 5 wprowadza obsługę trzykanałowego sterowania napięciem dla autorskich kart MSI GeForce RTX 5000

Przeglądarka Firefox może już odtwarzać pliki MKV. Mozilla dodaje wsparcie dla standardu Matroska, choć są pewne ograniczenia

Aktualizacja Rufus 4.10 dodaje kompatybilność z Windows 11 25H2 ISO oraz funkcję zapisywania dysków do formatu ISO

Koniec dominacji OpenAI w Microsoft. Firma znalazła lepszą AI dla pakietu Office i nie zawaha się jej użyć. To cios dla twórców ChatGPT

Komentarze:

Recenzja OnePlus Watch 3 43mm. Wersja na mniejsze nadgarstki, z wieloma funkcjami i przeciętnym czasem pracy

Recenzja Beyerdynamic Aventho 100. Nauszne słuchawki bezprzewodowe z dobrym czasem pracy, niezłym ANC i multipoint

Recenzja klawiatury Keychron Q6 HE QMK Wireless - Magnetyczna, analogowa, bezprzewodowa i perfekcyjnie wykonana

Recenzja Mio MiSentry 12T. Monitorowanie samochodu, podgląd na żywo z trzech kamer, śledzenie GPS i powiadomienia, ale...

Test klawiatury Glorious GMBK 75% - Pierwsza membrana tego producenta. Konkurencja dla Razer Ornata i SteelSeries Apex 3

Wiedźmin 3: Dziki Gon - Edycja Kompletna i Edycja Gry Roku otrzymały wydania ze steelbookiem na 10-lecie tytułu

Wirtualny minister AI w Albanii ma wyeliminować korupcję z przetargów publicznych wykorzystując algorytmy decyzyjne

Śmierć Charlie'ego Kirka wywołuje debatę nad algorytmami mediów społecznościowych. Utah wprowadza nowe przepisy

Nadzór nad AI zawiódł. Jak warty 2,8 mln dolarów raport rządowy został podważony przez nieweryfikowane dane z modelu LLM

Netflix – filmowe i serialowe nowości VOD na 15 - 21 września 2025. Wśród premier Black Rabbit, Bunkier miliarderów oraz 1670

Test Cronos: The New Dawn PC. Jakość technik NVIDIA DLSS 4, AMD FSR 3.1 oraz Intel XeSS 2. Frame Generation i skalowanie wydajności

Procesor Intel Core i5-14600K BOX plus Battlefield 6 teraz w rewelacyjnie niskiej cenie. Za 649 zł niczego lepszego nie dostaniesz

Test wydajności Cronos: The New Dawn - Dead Space po polsku, czyli za komuny nie było lepiej! Świetna grafika i wysokie wymagania

Linux z rekordowym udziałem w Polsce i Europie. Alternatywa dla Windowsa nigdy nie była tak popularna

NVIDIA ogranicza produkcję kart graficznych GeForce RTX 5060 i RTX 5060 Ti 8 GB w obliczu rynkowej dominacji

O portalu PurePC

Najważniejsze

Znajdź PurePC na