Od dłuższego czasu możemy zauważyć, że chipy krzemowe stają się coraz cieplejsze i bardziej energochłonne. Lisa Su, CEO AMD, na gali rozdania nagród na targach ITF World 2024, przedstawiła plan, który ma zapewnić trzydziestokrotny wzrost wydajności energetycznej do 2025 roku i stukrotny do 2027 roku dla infrastruktury AI wykorzystującej chipy EPYC i Instinct. Zwróciła również uwagę na największy obecnie problem branży sztucznej inteligencji.

Lisa Su, CEO AMD, odebrała nagrodę Innovation Award na tegorocznych targach ITF World 2024. W swoim przemówieniu zapowiedziała trzydziestokrotny wzrost wydajności energetycznej do 2025 roku i stukrotny do 2027 roku dla infrastruktury AI wykorzystującej chipy EPYC i Instinct.

Jakiś czas temu pojawiły się przecieki, jakoby AMD opracowywało architekturę RDNA5 całkowicie od podstaw. Teraz, dzięki dr. Lisie Su, wiemy, że ta inicjatywa wpisuje się w główny nurt firmy, która chce znacząco poprawić wydajność energetyczną swoich produktów, skupiając się głównie na układach do obliczeń sztucznej inteligencji. CEO amerykańskiej firmy zauważyła, że zapotrzebowanie na moc obliczeniową wśród modeli AI rośnie dwudziestokrotnie na rok od czasów rozpowszechnienia się modelów językowych LLM. W przeszłości, w modelach odpowiedzialnych jedynie za przetwarzanie obrazów i mowy, tempo wzrostu wynosiło dwukrotność rok do roku. Przedstawiono również tempo przyrostu mocy obliczeniowych przez serwery i akceleratory GPU w ujęciu ogólnoświatowym. Okazuje się, że średnio co 2,3 i co 2,2 roku dochodzi do podwojenia mocy obliczeniowej.

Wraz ze wzrostem mocy obliczeniowej idzie jednak ogromny wzrost poboru energii elektrycznej. Według udostępnionych danych przez AMD, możemy zauważyć, że popularny model GPT-4 pobiera niemalże 10 000 megawatogodzin. Lisa Su zauważa, że coraz częściej blokadą w rozwoju centrów obliczeniowych AI nie jest powierzchnia czy dostępność układów, lecz ograniczenia związane z ogromnym poborem energii elektrycznej. Co ciekawe, w większości przypadków ceny energii nie stanowią tak dużego problemu, jak niewydolność lokalnych elektrowni czy sieci przesyłowych. Dlatego obecnie wiele centrów obliczeniowych powstaje w bliskim sąsiedztwie dużych elektrowni atomowych lub same posiadają małe reaktory jądrowe (SMR).

Dr. Lisa Su zapowiedziała, że AMD opracowało plan 30x25, który ma zapewnić trzydziestokrotny wzrost wydajności energetycznej do 2025 roku dla infrastruktury AI wykorzystującej chipy EPYC i Instinct. Dyrektor generalna poinformowała, że względem średniej rynkowej obecnie układy AI od AMD są 2,5 razy wydajniejsze energetycznie. Bazując na tym, przewiduje, że do 2027 roku firma osiągnie stukrotny wzrost energooszczędności. Ma się to stać m.in. dzięki przejściu na nową budowę tranzystora GAAFET oraz proces litograficzny TSMC 3N i jego pochodne. Niezwykle ważne mają się również okazać udoskonalone procesy pakowania układów scalonych w technologiach 2,5D i 3D oraz przyszłe architektury poszczególnych chipletów, rdzeni i pamięci operacyjnych, nakierowane na energooszczędność.

Na prezentacji zwrócono również uwagę na optymalizację przesyłu danych i możliwie jak największą integrację poszczególnych komponentów. Okazuje się, że jedne z większych strat energii generuje właśnie przesył ogromnych ilości danych między poszczególnymi punktami serwerów. Lisa Su zwróciła uwagę na to, że AMD MI300X jest doskonałym przykładem takiej optymalizacji. Chip ten posiada 153 miliardy tranzystorów rozmieszczonych w 12 chipletach, w połączeniu z 24 układami HBM3, które zapewniają 192 GB pojemności pamięci, z której całość jest dostępna dla GPU jako pamięć lokalna. Dzięki zoptymalizowanym pod kątem zasilania i wydajności połączeniom Infinity Fabric między jednostkami w pakiecie i pamięcią układ utrzymuje więcej danych w pobliżu rdzeni przetwarzających, zmniejszając ilość energii potrzebnej do przesyłania danych.

Poruszono również kwestię optymalizacji software'owej, zwracając uwagę na obniżenie precyzji obliczeń z FP32 do FP8, a nawet FP4. Zejście do FP8 zapewnia 15-krotny wzrost sprawności energetycznej niemalże całego serwera, podczas gdy zejście do FP4 zapewnia około 30-krotną poprawę względem precyzji FP32. Wiadomo, że niższa precyzja skutkuje mniejszą dokładnością, jednakże Lisa Su podkreśliła, że zaawansowane techniki kwantyzacji pomogły rozwiązać ten problem. W rzeczywistości nawet FP6 może zapewnić podobną dokładność do FP32, ze spadkiem widocznym tylko przy FP4 w przypadku kilku modeli, podczas gdy inne są nadal tak samo dokładne. Najprawdopodobniej w najbliższej przyszłości precyzja FP4 z rozwiniętymi technikami kwantyzacji stanie się standardem w obliczeniach sztucznej inteligencji. Na końcu prezentacji dr. Lisa Su stwierdziła, że energooszczędność centrów obliczeniowych AI zależy od współpracy wszystkich zaangażowanych stron, od firm takich jak AMD, przez dostawców pamięci, aż po programistów modeli LLM. Tylko ścisła współpraca może pomóc w rozwiązaniu problemów związanych z ogromnym zapotrzebowaniem na energię.

Źródło: AMD, Tom's Hardware