NVIDIA A100 przetestowane - to najszybszy akcelerator na świecie
Nieco ponad dwa miesiące temu NVIDIA podczas specjalnego wydarzenia przygotowanego w ramach GPU Technology Conference, zaprezentowała możliwości nowej architektury Ampere. Zaczęła od największego i najwydajniejszego pojedynczego układu w postaci akceleratora NVIDIA A100. Wówczas poznaliśmy specyfikację układu GPU przygotowanego w formacie SXM o wysokim współczynniku poboru energii, sięgającego 400 W. Miesiąc później z kolei zaprezentowano wariant PCIE, który odznacza się dużo niższym współczynnikiem TDP, wynoszącym 250 W, ale jednocześnie i niższym taktowaniem przy długotrwałym obciążeniu. W sieci pojawił się pierwszy test nowego akceleratora Ampere, przygotowany na bazie benchmarku OctaneBench.
Według wyniku benchmarku OctaneBench, nowy akcelerator NVIDIA A100 jest najwydajniejszym GPU, jakie kiedykolwiek powstało.
Układ NVIDIA Tesla A100 został oparty na 7 nm procesie technologicznym TSMC. Sam rdzeń graficzny Ampere GA100 ma powierzchnię 826 mm², co sprawia że mamy do czynienia wręcz z gigantycznym układem. Ampere GA100 zawiera w sobie m.in. 54 miliardy tranzystorów, aczkolwiek zaprezentowany dotychczas wariant wyposażono w 6912 rdzeni CUDA oraz 108 aktywnych bloków SM (Streaming Multiprocessor). Nie jest to więc pełny rdzeń, który oferuje 128 bloków SM oraz 8192 rdzenie CUDA. Dotychczas w sieci nie pojawiały się żadne testy wydajności akceleratora, ale teraz to się zmieniło, bowiem w bazie popularnego benchmarku OctaneBench pojawił się wpis dotyczący przedstawiciela architektury Ampere.
Specyfikacja | NVIDIA Tesla A100 | NVIDIA Tesla V100 | NVIDIA Tesla P100 |
Architektura | Ampere | Volta | Pascal |
Litografia | 7 nm N7 TSMC | 12 nm | 16 nm |
Powierzchnia chipu | 826 mm² | 815 mm² | 610 mm² |
Ilość tranzystorów | 54,2 mld | 21,1 mld | 15,3 mld |
Rdzenie CUDA | 6912 | 5120 | 3584 |
Jednostki TMU | 432 | 320 | 224 |
Pamięć cache L2 | 40960 KB | 6144 KB | 4096 KB |
Wydajność FP16 | 78 TFLOPS | 31,4 TFLOPS | 21,2 TFLOPS |
Wydajność FP32 | 19,5 TFLOPS | 15,7 TFLOPS | 10,6 TFLOPS |
Wydajność FP64 | 9,7 TFLOPS | 7,8 TFLOPS | 5,3 TFLOPS |
Tensor Cores | 432 | 640 | N/A |
Pamięć VRAM | 40 GB HBM2e | 16 / 32 GB HBM2 | 16 GB HBM2 |
Magistrala pamięci | 5120-bit | 4096-bit | 4096-bit |
Przepustowość pamięci | 1555 GB/s | 900 GB/s | 720 GB/s |
TDP | 400 W (SXM) / 250 W (PCIE) | 300 W | 300 W |
Przetestowano układ NVIDIA A100 w wariancie SXM4, a więc wersją z TDP sięgającą 400 W. Akcelerator w teście zdołał wyciągnąć 446 punktów, co jest najwyższym, dotychczasowym rezultatem w tym programie. W porównaniu do A100, najmocniejszy przedstawiciel rodziny Turing (w programie OctaneBench oznaczony jako GRID RTX 8000-24Q) wyciągnął około 36% gorszy rezultat, natomiast karty takie jak TITAN RTX czy Quadro RTX 8000 osiągnęły o około 40% słabsze wyniki. Z kolei przedstawiciel architektury Volta - TITAN V - w tym samym teście otrzymał 401 punktów, a więc o 11% gorszy wynik w porównaniu do akceleratora A100. Wygląda na to, że mamy do czynienia z naprawdę bardzo wydajnym układem. Jesteśmy bardzo ciekawi jak na tle A100 w podobnych testach poradzą sobie konsumenckie karty GeForce RTX serii 3000. Ich premiery spodziewamy się już we wrześniu.