NVIDIA modyfikuje projekt racków serwerowych z superchipami GB200. Powodem jest przegrzewanie się układów
Pierwsze dostawy serwerów z superchipami NVIDIA GB200 miały nastąpić w grudniu bieżącego roku. Choć wciąż może tak się stać, to pojawiły się obawy, czy ten termin będzie dotrzymany. Przyczyną są doniesienia o przegrzewaniu się akceleratorów w serwerach NVL72, które będą podstawą infrastruktury sieciowej dużych firm technologicznych. Sprawa jest na tyle poważna, że NVIDIA postanowiła wdrożyć poprawki do projektu racków.
Nie można wykluczyć opóźnienia dostawy pierwszej partii serwerów NVL72. Firma NVIDIA została zmuszona wprowadzić poprawki do ich projektu, gdy okazało się, że obecne w nich akceleratory Blackwell przegrzewają się.
NVIDIA GB200 - serwery wykorzystujące nowe superchipy trafią do klientów w grudniu. Wiemy, kto będzie odbiorcą pierwszej partii
Należy przypomnieć, że choć właściwa dostawa pierwszej partii serwerów NVL72 dopiero przed nami, to niektóre podmioty otrzymały już racki testowe. Microsoft przykładowo wpiął już jeden z nich do swojej infrastruktury napędzającej usługi chmurowe. Problem przegrzewania się dotyczy racków z 72 układami Blackwell (36 superchipów GB200). Uwagę zwróciły na to prawdopodobnie podmioty, które otrzymały już pierwsze NVL72 do testów. Pojedynczy rack przy pełnym obciążeniu cechuje się poborem mocy na poziomie 120 kW, zatem odpowiednie chłodzenie jest w tym przypadku kluczowe. Jego brak może bowiem doprowadzić do obniżenia wydajności sprzętu, a nawet do jego uszkodzenia.
NVIDIA bierze pełną odpowiedzialność za problemy z uzyskiem przy wczesnej produkcji akceleratorów Blackwell
Problemy ze zbytnim nagrzewaniem się układów Blackwell skłoniły NVIDIĘ do wprowadzenia kilku modyfikacji w projekcie serwerów NVL72. Odpowiednie instrukcje zostały już wydane firmom Foxconn i Quanta, które odpowiadają za składanie racków. Wywołało to jednak obawy dotyczące potencjalnego opóźnienia dostaw, a co za tym idzie także wdrożenia tych serwerów. To zaś mogłoby przesunąć termin debiutu nowych usług, które będą bazowały na tej infrastrukturze. Ostatecznie trzeba jednak zauważyć, że dostawy testowych racków mają pomóc wyeliminować podobne problemy. Rzadko bowiem wdrażanie na taką skalę nowego sprzętu przebiega bez żadnych trudności.
Powiązane publikacje

ARM ma już 40 lat. Architektura, która zasila smartfony, serwery i roboty, trafiła do ponad 250 miliardów urządzeń
22
Anthropic chce zajrzeć do wnętrza AI. Czy do 2027 roku odkryjemy, jak naprawdę myślą modele językowe?
22
Firma Elona Muska xAI chce pozyskać 25 miliardów dolarów na budowę superkomputera Colossus 2 z milionem GPU NVIDIA
60
Nowatorski interfejs mózg-komputer od Georgia Tech może zmienić sposób, w jaki ludzie komunikują się z technologią i otoczeniem
4