Intel Ponte Vecchio - charakterystyka architektury wydajnego akceleratora graficznego przeznaczonego dla rynku HPC
Podczas prezentacji Intel Architecture Day 2021 bardzo mocno skupiono się na prezentacji pierwszych szczegółów na temat architektury Xe-HPG, która jest bazą dla kart graficznych ARC. Wszyscy wiemy jednak, że prawdziwym oczkiem w głowie producenta była od początku najbardziej rozbudowana architektura Xe-HPC, przygotowana z myślą o centrach danych oraz superkomputerach do skomplikowanych obliczeń. Na bazie prac nad Xe-HPC powstał najwydajniejszy akcelerator graficzny firmy - Ponte Vecchio. Producent ujawnił więcej szczegółów na temat stojącej za nim architektury, a także potwierdził, że w pierwszej połowie przyszłego roku będą oferowane gotowe zestawy składające się z akceleratorów Ponte Vecchio oraz dwóch serwerowych procesorów Sapphire Rapids.
Intel zdradził szczegóły dotyczące architektury Xe-HPC, stojącej za najwydajniejszym akceleratorem GPU w portfolio firmy - Ponte Vecchio. Układ przygotowany z myślą o obliczeniach HPC oraz AI będzie gotowy w pierwszych miesiącach 2022 roku.
Intel Xe-HPG oraz XeSS - omówienie architektury kart graficznych ARC oraz techniki konkurencyjnej dla NVIDIA DLSS
Bazą dla akceleratora graficznego Intel Ponte Vecchio, a zatem i dla całej architektury Xe-HPC, jest blok Xe-CORE. Na pierwszy rzut oka jest bardzo podobny pod względem budowy do tego, co znajdziemy w konsumenckich kartach graficznych ARC. Tym razem jednak pojedynczy rdzeń Xe-CORE będzie posiadał 8 bloków Vector Engine oraz 8 bloków Matrix Engine. W przypadku Vector Engine możemy liczyć na zdolność do przetworzenia 256 operacji FP32 i FP64 na pojedynczy cykl oraz 512 operacji FP16 na pojedynczy cykl. W przypadku Matrix Engine możemy z kolei oczekiwać możliwości przetworzenia nawet 8192 operacji INT8 na każdy cykl zegara. Każdy blok Xe-HPC Slice będzie posiadał 16 bloków Xe-CORE oraz 8 MB pamięci cache L1. Przekłada się to na obecność 128 jednostek Vector Engine oraz Matrix Engine (XMX). Oprócz tego jeden główny blok Xe-HPC Slice ma wbudowane 16 jednostek do sprzętowej akceleracji Ray Tracingu (Ray Tracing Units).
Intel Sapphire Rapids - rewolucyjna architektura procesorów serwerowych. Producent zdradza pierwsze szczegóły
Cztery bloki Xe-HPC Slice połączone z pomocą technologii Foveros tworzą pojedynczy stos. Połączenie czterech Xe-HPC Slice daje zatem dostęp do 64 bloków Xe-CORE, 64 jednostek RT oraz łącznie 512 jednostek Vector Engine oraz 512 jednostek Matrix Engine. Ponadto pojedynczy stos posiada współdzieloną przez bloki Xe-HPC Slice pamięć cache L2, cztery kontrolery dla pamięci HBM2e, dodatkowy blok media engine oraz 8 połączeń Xe-LINK. Podwójny stos będzie oferował dwukrotnie więcej wszystkich bloków oraz jednostek - 128 Xe-CORE, 128 jednostek RT, 1024 jednostki Vector Engine, 1024 jednostki XMX, 8 kontrolerów dla pamięci HBM2e, dwa bloki media engine oraz łącznie 16 połączeń Xe-LINK. Dzięki interfejsowi Xe-LINK będzie możliwe połączenie maksymalnie 8 systemów Xe-HPC, gdzie każdy system składać się będzie z dwóch stosów - ich konfiguracje są omówione wyżej. Tak połączony system ma oferować bardzo wysoką wydajność zarówno w klasycznych obliczeniach pojedynczej oraz podwójnej precyzji, jak również obliczeń ściśle powiązanych z algorytmami sztucznej inteligencji.
Intel Alder Lake oraz Intel Thread Director - szczegóły dotyczące hybrydowej architektury procesorów Core 12. generacji
Akcelerator graficzny Ponte Vecchio został zbudowany z łącznie 47 aktywnie działających kafelek. Do ich produkcji wykorzystano 5 różnych procesów technologicznych, aczkolwiek prezentacja Intela ujawniła tylko trzy z nich - Intel 7 (produkcja bazowego kafelka - Base Tile, będącego centralną częścią Ponte Vecchio z pełnym kompleksem I/O), TSMC N7 (wykorzystany głównie do produkcji kafelka Xe-LINK) oraz TSMC N5 (ten z kolei użyty zostanie do wytworzenia kafelków obliczeniowych - Compute Tile, w którym znajdą się rdzenie Xe-CORE). Cały układ posiada 100 miliardów tranzystorów. Base Tile ma z kolei powierzchnię 640 mm², obsługuje interfejs PCIe 5.0, ma wbudowany kontroler dla pamięci HBM2e, mostek EMIB (Embedded Multi-Die Interconnect Bridge) oraz bloczek MDFI - szybkie połączenie pozwalające na bezproblemowe skalowanie z jednego do dwóch stosów. Base Tile posiada także 144 MB pamięci cache poziomu L2.
Obecny status akceleratora Ponte Vecchio zakłada wydajność na poziomie powyżej 45 TFLOPS dla obliczeń FP32, przepustowość Memory Fabric na poziomie ponad 5 TBps (Terabajtów na sekundę) oraz przepustowość łączności na poziomie ponad 2 TBps. Akcelerator Intel Ponte Vecchio powinien być gotowy na początku 2022 roku w trzech wersjach: pojedynczym OAM, jako podsystem składający się z czterech układów graficznych oraz jako podsystem bazujący jednocześnie na czterech akceleratorach Ponte Vecchio w połączeniu z serwerowym układem Sapphire Rapids, pracującym w trybie 2S (Dual Socket). Najwydajniejszy akcelerator graficzny Intela przygotowany jest m.in. z myślą o superkomputerze Aurora, którego łączna moc obliczeniowa szacowana jest na poziomie 1 eksaflopsa.
Powiązane publikacje

NVIDIA GeForce RTX 4060 Ti - nowe informacje na temat specyfikacji karty. Poznaliśmy taktowanie układu graficznego
0
NVIDIA GeForce RTX 3080 Ti - użytkownicy karty donoszą o poważnych problemach sprzętowych podczas rozgrywki w Diablo IV
42
Halo Infinite po najnowszej aktualizacji nie uruchamia się na kartach graficznych wyposażonych w 3 GB VRAM i mniej
25
Palit GeForce RTX 4080 i RTX 4070 Ti JetStream - nowe karty graficzne dla osób stroniących od podświetlenia LED RGB
35