Zgłoś błąd
X
Zanim wyślesz zgłoszenie, upewnij się że przyczyną problemów nie jest dodatek blokujący reklamy.
Błędy w spisie treści artykułu zgłaszaj jako "błąd w TREŚCI".
Typ zgłoszenia
Treść zgłoszenia
Twój email (opcjonalnie)
Nie wypełniaj tego pola
.
Załóż konto
EnglishDeutschукраїнськийFrançaisEspañol中国

Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34

Damian Marusiak | 23-08-2022 09:45 |

Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34Dwa tygodnie temu chińska firma Biren Technology zaprezentowała swoje najnowsze akceleratory graficzne Biren BR100 oraz Biren BR104. Zwłaszcza ten pierwszy na papierze wydaje się bardzo ciekawy, zwłaszcza że sam producent deklaruje jego wyższą wydajność w porównaniu chociażby do modelu NVIDIA A100. Podczas pierwszej prezentacji nie zdradzono jednak zbyt wielu informacji o specyfikacji. Dopiero podczas Hot Chips 34 ujawniono nieco więcej szczegółów.

Chińska firma Biren Technology pojawiła się na konferencji Hot Chips i zdradziła nowe informacje na temat akceleratora Biren BR100.

Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34 [1]

Biren BR100 - chiński akcelerator graficzny mający przegonić układ NVIDIA A100. Na pokładzie 77 mld tranzystorów i 64 GB HBM2e

Biren Technology zdradziło co nieco na temat wydajności akceleratora Biren BR100 w zadaniach związanych z głębokim uczeniem. W zależności od typu zadania, Biren BR100 oferuje od 2,4x do 2,8x wyższą wydajność w porównaniu do akceleratora NVIDIA A100 (średnio jest to ~2,6x). Jeśli chodzi o budowę Biren BR100, to akcelerator zbudowany jest z dwóch chipletów obliczeniowych, gdzie każdy z nich posiada 16 klastrów SPC (Streaming Processing Clusters). Każdy klaster SPC posiada 16 jednostek EU (Execution Unit), natomiast 4 EU tworzą jeden blok CU (Compute Unit, choć co ciekawe Biren Technology zdradził również, że teoretycznie w jednym CU może znaleźć się zarówno 4 EU, jak również 8 lub 16 EU). Tym samym pojedynczy klaster SPC posiada 4 CU oraz 16 EU. Jeden chiplet z 16 SPC wyposażony jest natomiast w 256 EU oraz 64 CU (przy zachowaniu ciągłości, że 4 EU = 1 CU). Dalsze obliczenia prowadzą natomiast do prostego wniosku, że pełny układ Biren BR100 oferuje 32 SPC, 512 EU oraz 128 CU (jeśli cały układ opiera się na budowie 4 EU = 1 CU).

Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34 [2]

Premiera akceleratora NVIDIA H100 Hopper - Litografia TSMC 4 nm, 80 GB pamięci HBM3 i TDP do 700 W

Pojedynczy blok CU podłączony jest do 64 KB pamięci cache L1, a dodatkowo klaster SPC posiada dostęp do 8 MB pamięci cache L2, współdzielonej przez wszystkie jednostki wykonawcze (EU). Łącznie samej pamięci cache L1 mamy 8 MB, natomiast L2 - 256 MB. W kolejnych slajdach producenta możemy także zobaczyć, że jednostki wykonawcze (EU) są zbudowane m.in. z 16 rdzeni przetwarzania strumieniowego (V-Core) oraz jednego silnika Tensor (Tensor Engine). O ile rdzenie V-Core służą przede wszystkim do obliczeń typu FP32, FP16, INT32 oraz INT16, tak Tensor Engine jest ukierunkowany głównie na obliczenia ściśle związane ze sztuczną inteligencją. Dodatkowo V-Core posiada również ulepszony model SIMT (prosta instrukcja, wiele wątków jednocześnie), umożliwiający uruchomienie nawet 128 tysięcy wątków we wszystkich 32 klastrach SPC w trybie superskalarnym (zarówno statycznym jak również dynamicznym).

Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34 [3]

Biren BR100 oferuje 64 GB pamięci VRAM typu HBM2e na 4096-bitowej magistrali, co przekłada się na łączną przepustowość rzędu 2,3 TB/s. Całość wyprodukowano w 7 nm procesie technologicznym TSMC wraz z wykorzystaniem technologii pakowania 2.5D CoWoS tej samej firmy. Oparcie się na budowie chipletowej ma skutkować nawet o 30% lepszą wydajnością w porównaniu z tradycyjnym monolitem, a także zachować niższe koszty produkcji. Co ciekawe, powierzchnia pełnego układu Biren BR100 sięga imponujących 1074 mm² (wraz z 77 mld tranzystorów). TDP akceleratora wynosi z kolei 550 W (OAM). BR100 obsługuje również magistralę PCIe 5.0 x16.

Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34 [4]

Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34 [5]

Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34 [6]

Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34 [7]

Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34 [8]

Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34 [9]

Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34 [10]

Biren BR100 - nowe informacje o specyfikacji oraz wydajności chińskiego akceleratora wprost z konferencji Hot Chips 34 [11]

Źródło: WCCFTech
Bądź na bieżąco - obserwuj PurePC.pl na Google News
Zgłoś błąd
Liczba komentarzy: 24

Komentarze:

x Wydawca serwisu PurePC.pl informuje, że na swoich stronach www stosuje pliki cookies (tzw. ciasteczka). Kliknij zgadzam się, aby ta informacja nie pojawiała się więcej. Kliknij polityka cookies, aby dowiedzieć się więcej, w tym jak zarządzać plikami cookies za pośrednictwem swojej przeglądarki.