Elon Musk uruchomił jeden z najpotężniejszych klastrów serwerowych. Składa się z dziesiątek tysięcy układów NVIDIA H100
Boom na sztuczną inteligencję skłania coraz większą liczbę podmiotów do inwestycji w infrastrukturę serwerową. Obecny sprzęt umożliwia osiągnięcie mocy obliczeniowej, która jeszcze kilka lat temu była poza zasięgiem większości firm. Odpowiednie inwestycje poczynił też właściciel platformy X - Elon Musk. Miliarder pochwalił się właśnie uruchomieniem klastra serwerowego, który przyćmiewa swoim potencjałem nawet większość superkomputerów.
Należąca do Elona Muska firma xAI uruchomiła klaster serwerowy składający się z zawrotnej liczby 100 tys. akceleratorów graficznych NVIDIA H100. System będzie wykorzystywany do treningu i obsługi modelu językowego Grok 3.
Grok 3 - kolejna generacja modelu AI może się okazać rewolucyjna. Elon Musk wykorzysta tysiące układów NVIDIA H100
Przedsiębiorca Elon Musk i jego partnerzy pracują nad olbrzymim projektem, który określany jest mianem "Gigafactory of Compute" ("Gigafabryka obliczeniowa"). Jego rozwojem zajmuje się powołana specjalnie w tym celu firma xAI. Ma to być olbrzymie centrum danych, służące treningowi i obsłudze sztucznej inteligencji (w tym chatbota Grok 3), którą następnie wykorzystają należące do Muska podmioty. Całość powstaje we współpracy z firmą Oracle. Miliarder pochwalił się na platformie X, że uczyniono właśnie olbrzymi krok na drodze do realizacji wspomnianej "Gigafabryki". W Memphis uruchomiony został bowiem prawdopodobnie największy klaster serwerowy w historii. Sprzęt składa się z aż 100 tys. akceleratorów graficznych NVIDIA H100, połączonych ze sobą za pośrednictwem RDMA i chłodzonych cieczą. Dla porównania, za modelem Grok 2 stoi klaster złożony z 20 tys. układów H100. Mamy tutaj zatem do czynienia z przedsięwzięciem pięć razy większym.
NVIDIA H100 - chipy do obsługi sztucznej inteligencji zużyją w przyszłym roku olbrzymią ilość energii elektrycznej
Teoretycznie omawiany klaster serwerowy oferuje dużo większy potencjał obliczeniowy niż najszybsze dostępne obecnie superkomputery. Przykładowo, w skład zajmującego pierwsze miejsce w zestawieniu TOP 500 superkomputera Frontier wchodzi "zaledwie" 38 tys. akceleratorów AMD Instinct MI250X. Druga w zestawieniu Aurora to z kolei 60 tys. układów Intela. Trzeci w rankingu jest Microsoft Eagle, którego podstawą jest 14,5 tys. akceleratorów H100. Warto jednak pamiętać, że tradycyjne superkomputery wykorzystywane są zazwyczaj do nieco innych zadań niż klaster Muska, zatem bezpośrednie porównania nie są tutaj w pełni adekwatne. Trening modelu Grok 3 na sprzęcie xAI powinien zakończyć się najpóźniej w grudniu bieżącego roku.
Nice work by @xAI team, @X team, @Nvidia & supporting companies getting Memphis Supercluster training started at ~4:20am local time.
— Elon Musk (@elonmusk) July 22, 2024
With 100k liquid-cooled H100s on a single RDMA fabric, it’s the most powerful AI training cluster in the world!
Powiązane publikacje

TSMC zapowiada CoPoS i PLP. Znacząca ewolucja, która pozwoli uzyskać więcej miejsca dla chipów
21
PCI-SIG finalizuje specyfikację PCI Express 7.0. Interfejs przygotowany jest na potrzeby systemów AI i cloud computing
40
Naukowcy zbudowali robota, który gra w badmintona lepiej niż większość ludzi. Zobacz, co potrafi ANYmal‑D od ETH Zurich
37
Meta wydaje miliardy. Laboratorium SI, inwestycja w Scale AI i dążenie do wyjścia poza ograniczenia LLaMA
15