NVIDIA A100 - akcelerator z rdzeniem Ampere GA100 w wersji PCI-E
Nieco ponad miesiąc temu NVIDIA podczas specjalnego wydarzenia przygotowanego w ramach GPU Technology Conference, zaprezentowała możliwości nowej architektury Ampere. Zaczęła od największego i najwydajniejszego pojedynczego układu w postaci Tesla A100. Wówczas poznaliśmy specyfikację układu GPU przygotowanego w formacie SXM o wysokim współczynniku poboru energii, sięgającego 400 W. Teraz producent kart przygotował taki sam akcelerator A100, jednak w wersji PCIe. Poznaliśmy nie tylko wygląd karty, ale także jej specyfikację. Co ciekawe, wariant PCIe charakteryzuje się dużo mniejszym współczynnikiem poboru energii - TDP w tym wypadku sięga maksymalnie 250 W. Pozostałe parametry NVIDIA A100 są jednak bliźniaczo podobnie. Teraz czekamy już tylko na prezentację profesjonalnych i konsumenckich kart Quadro oraz GeForce.
NVIDIA zaprezentowała akcelerator Ampere A100 w formacie PCIe. Dotychczas GPU było dostępne tylko w formacie SXM z dużo wyższym poborem energii sięgającym 400 W.
Układ NVIDIA Tesla A100 PCIe będzie oparty na 7 nm procesie technologicznym TSMC. Sam rdzeń graficzny Ampere GA100 będzie miał powierzchnię 826 mm², co sprawia że mamy do czynienia wręcz z gigantycznym układem. Ampere GA100 zawiera w sobie m.in. 54 miliardy tranzystorów, aczkolwiek zaprezentowany dotychczas wariant wyposażono w 6912 rdzeni CUDA oraz 108 aktywnych bloków SM (Streaming Multiprocessor). Nie jest to więc pełny rdzeń, który oferuje 128 bloków SM oraz 8192 rdzenie CUDA. Z pewnością jednak w pewnym momencie NVIDIA wypuści i najbardziej dopakowany wariant Ampere.
Specyfikacja | NVIDIA Tesla A100 | NVIDIA Tesla V100 | NVIDIA Tesla P100 |
Architektura | Ampere | Volta | Pascal |
Litografia | 7 nm N7 TSMC | 12 nm | 16 nm |
Powierzchnia chipu | 826 mm² | 815 mm² | 610 mm² |
Ilość tranzystorów | 54,2 mld | 21,1 mld | 15,3 mld |
Rdzenie CUDA | 6912 | 5120 | 3584 |
Jednostki TMU | 432 | 320 | 224 |
Pamięć cache L2 | 40960 KB | 6144 KB | 4096 KB |
Wydajność FP16 | 78 TFLOPS | 31,4 TFLOPS | 21,2 TFLOPS |
Wydajność FP32 | 19,5 TFLOPS | 15,7 TFLOPS | 10,6 TFLOPS |
Wydajność FP64 | 9,7 TFLOPS | 7,8 TFLOPS | 5,3 TFLOPS |
Tensor Cores | 432 | 640 | N/A |
Pamięć VRAM | 40 GB HBM2e | 16 / 32 GB HBM2 | 16 GB HBM2 |
Magistrala pamięci | 5120-bit | 4096-bit | 4096-bit |
Przepustowość pamięci | 1555 GB/s | 900 GB/s | 720 GB/s |
TDP | 400 W (SXM) / 250 W (PCIE) | 300 W | 300 W |
NVIDIA A100 PCIe została wyposażona w 40 GB pamięci HBM2e produkcji Samsunga. Przepustowość pamięci sięga w obu wersjach imponujące 1555 GB/s. Nie brakuje także nowych i dużo bardziej udoskonalonych rdzeni Tensor - tych w akceleratorze A100 jest dokładnie 432. W przeciwieństwie do wariantu SXM, akcelerator PCIe ma dużo mniejsze TDP wynoszące 250 W zamiast 400 W. NVIDIA zapewnia, że wydajność szczytowa obu wariantów GPU będzie identyczna, jednak przy ciągłym i długotrwałym obciążeniu, wersja A100 PCIe będzie osiągała od 10 do 50 procent niższe wyniki w wybranych zastosowaniach w porównaniu do wariantu SXM.
Akcelerator NVIDIA A100 PCIe służy między innymi do zaawansowanych obliczeń związanych ze sztuczną inteligencją (głębokie uczenie AI) oraz interferencją. Ponadto świetnie sprawdzi się w centrach danych oraz jako karta do obszernych obliczeń naukowych. Wraz z premierą wariantu PCIe układu, firma ASUS zaprezentowała swój najnowszy serwer oparty właśnie na akceleratorze A100 PCIe. Mowa o modelu ASUS ESC4000A-E10, napędzany między innymi na serwerowym procesorze AMD EPYC 7002. Nowy serwer wykorzysta także wszystkie zalety interfejsu PCIE 4.0 - nie zabraknie łącznie 11 slotów PCIE 4.0 do obsługi obliczeń, grafiki, pamięci masowej i rozszerzeń sieciowych. Dzięki elastycznej obudowie serwera ASUS ESC4000A-E10 może pomieścić do 8 dysków twardych 3,5" lub 2,5" z możliwością wymiany podczas pracy, a cztery z nich są opcjonalnie przeznaczone na dyski SSD NVMe.
Powiązane publikacje

Intel potwierdza problemy z wydajnością kart Arc. Starsze procesory mogą ograniczać ich potencjał przez zbyt duże obciążenie CPU
85
JEDEC ogłasza specyfikację kości pamięci HBM4, które zaoferują dwukrotnie wyższą przepustowość dla akceleratorów AI
18
NVIDIA udostępniła zaawansowane demo technologiczne Zorah, wykorzystujące renderowanie neuronowe i silnik Unreal Engine
69
NVIDIA GeForce RTX 5060 Laptop GPU - Poznaliśmy specyfikację mobilnego układu graficznego Blackwell
30