NVIDIA może stracić pozycję lidera przez firmę Groq. Układy LPU to kolejna rewolucja w świecie sztucznej inteligencji
Na ten moment monopolistą w dziedzinie sztucznej inteligencji bez wątpienia jest NVIDIA. Rozwój AI spowodował wzrost zapotrzebowania na układy, które mogłyby wydajnie obsługiwać np. duże modele językowe (LLM). Dostarczył je nie kto inny, jak wspomniana firma, która przy okazji znacząco podniosła ceny za swoje specjalne akceleratory graficzne (NVIDIA A100). Nadchodzi jednak rozwiązanie, które może odmienić ten obraz o 180 stopni. Mowa o układzie LPU od firmy Groq.
Firma Groq oferuje rozwiązanie, które jest w stanie zabrać koronę NVIDII w dziedzinie „sztucznej inteligencji”. Nadchodzi specjalny chip, który obsłuży duże modele językowe (LLM) o wiele szybciej, a przy tym będzie nawet tańszy od dzisiejszej konkurencji. Omawiana nowość to układ LPU.
NVIDIA TensorRT-LLM - układy graficzne GeForce RTX z serii 30 i 40 będą teraz wydajniejsze w obsłudze modeli sztucznej inteligencji
Rzeczywistość, w której NVIDIA bogaci się na swoich akceleratorach graficznych, może naprawdę szybko się zmienić, a za rewolucją ma szansę stanąć były pracownik Google - Jonathan Ross. To on odpowiedzialny jest za powstanie firmy Groq, natomiast wcześniej zaprojektował dla Google układ TPU (Tensor Processing Unit) - czyli akcelerator dla uczenia maszynowego (ML). W 2016 roku jego celem było stworzenie jednostki, która byłaby dużo bardziej zaawansowana i wydajniejsza w obliczeniach związanych z AI. Tak właśnie powstał układ Tensor Stream Processor (TSP), który z czasem zmienił swoją nazwę na Language Processing Unit (LPU), a więc jednostkę, która ma za zadanie przetwarzać modele językowe. Efekty okazały się naprawdę imponujące, wszak już pod koniec 2023 roku dzięki nowości udało się uzyskać szybkość ponad 300 tokenów na sekundę (t/s) korzystając z modelu LLaMA 2 z 70 mld parametrów. Dla porównania dwa układy graficzne NVIDIA GeForce RTX 4090 osiągają w tym scenariuszu 34 t/s. Co ciekawsze, dwa akceleratory NVIDIA A100 dają rezultat 40 t/s. Konsumenckie układy GPU całkiem dobrze dają sobie radę, jednak łatwo dostrzec istną przepaść pomiędzy nimi, a LPU.
Ferret - Apple ukradkiem udostępniło swój duży model językowy i to za darmo. Firma oficjalnie dołącza do wyścigu AI
Architektura układu LPU pozwala otrzymywać odpowiedzi z LLM dosłownie „w locie”, o czym możemy się przekonać na poniższym wideo lub na oficjalnej stronie internetowej. Wydajność jest naprawdę niesamowicie duża i z pewnością NVIDIA zaczyna już nerwowo spoglądać na swojego konkurenta. Nowe rozwiązanie wykorzystuje do działania pamięci SRAM, zamiast DRAM lub HBM, jak ma to miejsce w przypadku NVIDII i AMD. Całe jednostki można także ze sobą łączyć, dzięki czemu osiąga się jeszcze lepsze wyniki. Niestety wciąż nie zdradzono wielu szczegółów, choć nieco przekonuje fakt, że efekty możemy zobaczyć na własne oczy. Trzeba więc poczekać na rozwój wydarzeń, aczkolwiek zapowiada się naprawdę interesująco, gdyż jest szansa, że układy LPU będą takim samym „przeskokiem” wydajnościowym, jak dawniej przejście z procesorów (CPU) na układy graficzne (GPU) w przypadku kopania kryptowalut.
The first public demo using Groq: a lightning-fast AI Answers Engine.
— Matt Shumer (@mattshumer_) February 19, 2024
It writes factual, cited answers with hundreds of words in less than a second.
More than 3/4 of the time is spent searching, not generating!
The LLM runs in a fraction of a second.https://t.co/dVUPyh3XGV https://t.co/mNV78XkoVB pic.twitter.com/QaDXixgSzp
Powiązane publikacje

Google inwestuje miliony w AI, która może wyleczyć każdą chorobę. Czy rewolucja w medycynie jest coraz bliżej?
98
Chińska firma SiCarrier prezentuje na Semicon China 2025 zaawansowane narzędzia do produkcji chipów, zaskakując branżę
37
Extropic chce zdetronizować NVIDIĘ dzięki rewolucyjnej technologii chipów probabilistycznych
21
Chińska Ant Group osiąga przełom w sztucznej inteligencji dzięki wykorzystaniu rodzimych układów półprzewodnikowych
16