Intel Ponte Vecchio pokazany na Hot Chips 34 - wydajność akceleratora ma być nawet 2,5x większa od NVIDIA A100
Na początku roku w USA miał zadebiutować superkomputer Aurora, bazujący na procesorach Intel Sapphire Rapids oraz akceleratorach graficznych Intel Ponte Vecchio. Jak wiadomo, mamy drugą połowę roku a ze względu na opóźnienia w dalszym ciągu Aurora nie została uruchomiona. Tymczasem Intel nie pozwala zapomnieć o Ponte Vecchio i podczas konferencji Hot Chips 34 zdradzono co nieco na temat wydajności akceleratora opartego na architekturze Xe-HPC.
Intel po raz kolejny przypomina o akceleratorze graficznym Ponte Vecchio. Podczas konferencji Hot Chips 34 opowiedziano co nieco o wydajności układu względem modelu NVIDIA A100.
Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34
Podstawą akceleratora graficznego Intel Ponte Vecchio jest blok Xe-CORE. Na pierwszy rzut oka jest bardzo podobny pod względem budowy do tego, co znajdziemy w konsumenckich kartach graficznych ARC. Pojedynczy rdzeń Xe-Core posiada 8 bloków Vector Engine oraz 8 bloków Matrix Engine. W przypadku Vector Engine możemy liczyć na zdolność do przetworzenia 256 operacji FP32 i FP64 na pojedynczy cykl oraz 512 operacji FP16 na pojedynczy cykl. W przypadku Matrix Engine możemy z kolei oczekiwać możliwości przetworzenia nawet 8192 operacji INT8 na każdy cykl zegara. Każdy blok Xe-HPC Slice został wyposażony w 16 rdzeni Xe oraz 8 MB pamięci cache L1. Przekłada się to na obecność 128 jednostek Vector Engine oraz Matrix Engine (XMX). Oprócz tego jeden główny blok Xe-HPC Slice ma wbudowane 16 jednostek do sprzętowej akceleracji Ray Tracingu (Ray Tracing Units). O ile jednak specyfikacja Ponte Vecchio pod względem budowy GPU nie uległa zmianie, tak firmie udało się jeszcze bardziej wyśrubować samą wydajność, co zostało omówione podczas konferencji Hot Chips 34.
Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W
Podczas Hot Chips 34 zaprezentowano bowiem obecną wydajność akceleratora Ponte Vecchio. Przykładowo w obliczeniach pojedynczej precyzji (FP32) nowy model Intela osiąga moc na poziomie 52 TFLOPS. Jeszcze kilka miesięcy temu było to ok. 45 TFLOPS. Wygląda na to, że producentowi udało się jeszcze bardziej zwiększyć zegary rdzenia (dokładne liczby niestety nadal nie zostały podane), co bezpośrednio wpływa na tego typu wyliczenia. Dodatkowo podzielono się informacjami o maksymalnej, teoretycznej wydajności w obliczeniach, w których wykorzystywane są również sprzętowe jednostki XMX. Z kolei dzięki wykorzystaniu rozszerzenia dla języka programowania C++ o nazwie DPC++ (Data Parallel C++), nowy akcelerator Ponte Vecchio ma uzyskiwać od 40 do nawet 150% wyższą wydajność w niektórych typach obliczeń w porównaniu do modelu NVIDIA A100.