Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34
Dwa tygodnie temu chińska firma Biren Technology zaprezentowała swoje najnowsze akceleratory graficzne Biren BR100 oraz Biren BR104. Zwłaszcza ten pierwszy na papierze wydaje się bardzo ciekawy, zwłaszcza że sam producent deklaruje jego wyższą wydajność w porównaniu chociażby do modelu NVIDIA A100. Podczas pierwszej prezentacji nie zdradzono jednak zbyt wielu informacji o specyfikacji. Dopiero podczas Hot Chips 34 ujawniono nieco więcej szczegółów.
Chińska firma Biren Technology pojawiła się na konferencji Hot Chips i zdradziła nowe informacje na temat akceleratora Biren BR100.
Biren BR100 - chiński akcelerator graficzny mający przegonić układ NVIDIA A100. Na pokładzie 77 mld tranzystorów i 64 GB HBM2e
Biren Technology zdradziło co nieco na temat wydajności akceleratora Biren BR100 w zadaniach związanych z głębokim uczeniem. W zależności od typu zadania, Biren BR100 oferuje od 2,4x do 2,8x wyższą wydajność w porównaniu do akceleratora NVIDIA A100 (średnio jest to ~2,6x). Jeśli chodzi o budowę Biren BR100, to akcelerator zbudowany jest z dwóch chipletów obliczeniowych, gdzie każdy z nich posiada 16 klastrów SPC (Streaming Processing Clusters). Każdy klaster SPC posiada 16 jednostek EU (Execution Unit), natomiast 4 EU tworzą jeden blok CU (Compute Unit, choć co ciekawe Biren Technology zdradził również, że teoretycznie w jednym CU może znaleźć się zarówno 4 EU, jak również 8 lub 16 EU). Tym samym pojedynczy klaster SPC posiada 4 CU oraz 16 EU. Jeden chiplet z 16 SPC wyposażony jest natomiast w 256 EU oraz 64 CU (przy zachowaniu ciągłości, że 4 EU = 1 CU). Dalsze obliczenia prowadzą natomiast do prostego wniosku, że pełny układ Biren BR100 oferuje 32 SPC, 512 EU oraz 128 CU (jeśli cały układ opiera się na budowie 4 EU = 1 CU).
Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W
Pojedynczy blok CU podłączony jest do 64 KB pamięci cache L1, a dodatkowo klaster SPC posiada dostęp do 8 MB pamięci cache L2, współdzielonej przez wszystkie jednostki wykonawcze (EU). Łącznie samej pamięci cache L1 mamy 8 MB, natomiast L2 - 256 MB. W kolejnych slajdach producenta możemy także zobaczyć, że jednostki wykonawcze (EU) są zbudowane m.in. z 16 rdzeni przetwarzania strumieniowego (V-Core) oraz jednego silnika Tensor (Tensor Engine). O ile rdzenie V-Core służą przede wszystkim do obliczeń typu FP32, FP16, INT32 oraz INT16, tak Tensor Engine jest ukierunkowany głównie na obliczenia ściśle związane ze sztuczną inteligencją. Dodatkowo V-Core posiada również ulepszony model SIMT (prosta instrukcja, wiele wątków jednocześnie), umożliwiający uruchomienie nawet 128 tysięcy wątków we wszystkich 32 klastrach SPC w trybie superskalarnym (zarówno statycznym jak również dynamicznym).
Biren BR100 oferuje 64 GB pamięci VRAM typu HBM2e na 4096-bitowej magistrali, co przekłada się na łączną przepustowość rzędu 2,3 TB/s. Całość wyprodukowano w 7 nm procesie technologicznym TSMC wraz z wykorzystaniem technologii pakowania 2.5D CoWoS tej samej firmy. Oparcie się na budowie chipletowej ma skutkować nawet o 30% lepszą wydajnością w porównaniu z tradycyjnym monolitem, a także zachować niższe koszty produkcji. Co ciekawe, powierzchnia pełnego układu Biren BR100 sięga imponujących 1074 mm² (wraz z 77 mld tranzystorów). TDP akceleratora wynosi z kolei 550 W (OAM). BR100 obsługuje również magistralę PCIe 5.0 x16.
Powiązane publikacje

ASUS ROG Astral GeForce RTX 5080 DOOM Edition to limitowana karta graficzna dla fanów gry DOOM: The Dark Ages
36
NVIDIA GeForce RTX 5070 Ti - Podkręcono pamięć karty graficznej. Kości GDDR7 od SK hynix osiągnęły 34 Gb/s
181
ASUS GeForce RTX 5000 ROG Astral - karty graficzne Blackwell, które posiadają akcelerometr i żyroskop
90
AMD Radeon RX 9070 GRE został oficjalnie zaprezentowany w Chinach - Potwierdzono specyfikację i cenę karty RDNA 4
56