NVIDIA Tesla A100 - specyfikacja najmocniejszej karty na świecie
Zgodnie z zapowiedziami jakie krążyły od kilku dni, NVIDIA podczas specjalnego wydarzenia przygotowanego w ramach GPU Technology Conference, zaprezentowała możliwości nowej architektury Ampere. Zaczęła od największego i najwydajniejszego pojedynczego układu w postaci Tesla A100. Poznaliśmy więc nareszcie sporo informacji na temat specyfikacji nowej Tesli, która przyniesie duży skok wydajności zwłaszcza w kontekście obliczeń połowicznej precyzji FP16, choć nie zabraknie także wzrostów w wydajności pojedynczej oraz podwójnej precyzji. Oprócz samej karty, NVIDIA oficjalnie zaprezentowała także stację do wykorzystania w zastosowaniach opartych o sztuczną inteligencję. Stacja DGX A100, składająca się m.in. z 8 układów Tesla A100, będzie kosztować 200 000 dolarów, czyli blisko milion złotych.
NVIDIA zaprezentowała układ graficzny Tesla A100, bazujący na architekturze Ampere. Karta zbudowana na rdzeniu GA100 zaoferuje m.in. 6912 rdzeni CUDA oraz 40 GB pamięci HBM2e na 5120-bitowej magistrali pamięci.
Układ NVIDIA Tesla A100 będzie oparty na 7 nm procesie technologicznym TSMC. Sam rdzeń graficzny Ampere GA100 będzie miał powierzchnię 826 mm², co sprawia że mamy do czynienia wręcz z gigantycznym układem. GA100 zawiera w sobie m.in. 54 miliardy tranzystorów, aczkolwiek zaprezentowany dzisiaj wariant wyposażono w 6912 rdzeni CUDA oraz 108 aktywnych bloków SM (Streaming Multiprocessor), co oznacza, że najpewniej to wciąż nie jest pełne GA100, tylko przycięta wersja. Jeszcze ciekawszą informacją jest ilość rdzeni Tensor - nowa Tesla A100 posiada 432 takie jednostki. Dla porównania Tesla V100 oparta na architekturze Volta była wyposażona w 640 rdzeni Tensor. Nowe jednostki mają być jednak wydajniejsze od pierwszej generacji, dzięki czemu ich mniejsza ilość nie wpłynie na wydajność w obliczeniach związanych ze sztuczną inteligencją.
Specyfikacja | NVIDIA Tesla A100 | NVIDIA Tesla V100 | NVIDIA Tesla P100 |
Architektura | Ampere | Volta | Pascal |
Litografia | 7 nm N7 TSMC | 12 nm | 16 nm |
Powierzchnia chipu | 826 mm² | 815 mm² | 610 mm² |
Ilość tranzystorów | 54,2 mld | 21,1 mld | 15,3 mld |
Rdzenie CUDA | 6912 | 5120 | 3584 |
Jednostki TMU | 432 | 320 | 224 |
Pamięć cache L2 | 40960 KB | 6144 KB | 4096 KB |
Wydajność FP16 | 78 TFLOPS | 31,4 TFLOPS | 21,2 TFLOPS |
Wydajność FP32 | 19,5 TFLOPS | 15,7 TFLOPS | 10,6 TFLOPS |
Wydajność FP64 | 9,7 TFLOPS | 7,8 TFLOPS | 5,3 TFLOPS |
Tensor Cores | 432 | 640 | N/A |
Pamięć VRAM | 40 GB HBM2e | 16 / 32 GB HBM2 | 16 GB HBM2 |
Magistrala pamięci | 5120-bit | 4096-bit | 4096-bit |
Przepustowość pamięci | ~1,6 TB/s | 900 GB/s | 720 GB/s |
TDP | 400 W | 300 W | 300 W |
NVIDIA zapowiada, że architektura Ampere będzie najbardziej uniwersalną oraz elastyczną spośród wszystkich jakie dotychczas powstały, Układ Tesla A100 ma z kolei według firmy zrewolucjonizować działanie sztucznej inteligencji oraz systemów przetwarzania danych dzięki ujednoliceniu głębokiego uczenia i wnioskowania wewnątrz jednej architektury, umożliwiającej osiąganie kilkukrotnie lepszych rezultatów w przeciwieństwie do architektury Volta, która była reprezentowana przez układ Tesla V100. CEO firmy NVIDIA - Jensen Huang - bardzo chwali sobie wydajność nowego systemu DGX A100 w centrach danych, gdzie jeden system DGX A100 (oparty m.in. na 8 kartach Tesla A100) może wykonać taką samą ilość pracy związanej z głębokim uczeniem w zakresie sztucznej inteligencji co 50 systemów DGX-1 opartych na kartach Tesla V100 i 600 systemów opartych na samych procesorach. Co więcej, taki wynik ma być osiągany za 1/10 kosztu oraz 1/20 mocy.
Wracając do specyfikacji nowej Tesli A100 - układ będzie wykorzystywał 40 GB pamięci HBM2e na 5120-bitowej magistrali. Przepustowość pamięci wynosi imponujące 1555 GB/s, czyli niemalże 1,6 TB/s. Znacząco powiększono także ilość pamięci cache L2, która w układzie Tesla A100 wynosi aż 40 MB. GPU posiada także m.in. 432 jednostki teksturujące. Taktowanie rdzenia w trybie GPU Boost ma sięgać około 1410 MHz, z kolei efektywne taktowanie pamięci HBM2e wynosi 2430 MHz. TDP układu wynosi 400 W. Tesla A100 będzie zgodna z dwoma interfejsami - PCIe 4.0 oraz SXM4. Masowa produkcja Tesli A100 już się rozpoczęła, a stacje DGX A100 będą wykorzystane m.in. w budowanych superkomputerach w ośrodkach badawczych w USA oraz Niemczech. Cena pojedynczej stacji DGX A100 wynosi dokładnie 200 tysięcy dolarów.
Sama stacja DGX A100 pod pewnymi względami ma również bardzo ciekawą specyfikację. Oprócz ośmiu układów Tesla A100, stacja do obliczeń sztucznej inteligencji wykorzystuje dwa procesory AMD EPYC z rodziny ROME. Jest to w sumie oczywiście ze względu na kompatybilność architektury Ampere z interfejsem PCIe 4.0 - ten jest obecnie wspierany wyłącznie przez AMD, toteż nowa stacja DGX zamiast układów Intel Xeon będzie teraz bazować na serwerowych jednostkach AMD EPYC. Oprócz tego stacja DGX A100 będzie wyposażona m.in. w 1 TB pamięci RAM, 15 TB pamięci masowej bazującej na dyskach SSD oraz dziewięć układów Mellanox ConnectX-6 VPI HDR InfiniBand/200 GigE do obsługi sieci.