Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3

Natan Faleńczyk | 02-03-2023 11:40 |

Nauka i technika

Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3 Dział SI cały czas się rozwija wręcz w błyskawicznym tempie. Nie tak dawno słyszeliśmy o tym, jak Meta zaprezentowała swoje rozwiązanie, a już mamy do czynienia z następnym modelem językowym. Tym razem jednak Microsoft postanowił skupić się na tzw. multimodalnym modelu. W przeciwieństwie do GPT-3 i LLAMA, potrafi on analizować to, co znajduje się na zdjęciach oraz udzielać na ich podstawie odpowiedzi. Już we wstępnej fazie rozwoju potrafi zaskakiwać.

Microsoft opracowuje Kosmos-1 - nowy multimodalny model językowy. Potrafi on rozpoznawać to, co znajduje się na obrazach oraz zdawać wizualne testy IQ. Nachodzi bardziej naturalna komunikacja z SI.

Meta prezentuje swój duży model językowy. Zuckerberg zdradził, jakiej spodziewać się wydajności względem ChatGPT

Firma, tworząc ten model językowy, miała jeden cel - stworzyć podwaliny dla sztucznej inteligencji, która pod względem możliwości będzie na naszym, ludzkim poziomie. Sam model multimodalny (MLLM) różni się od "zwykłego" (LLM) tym, że potrafi intepretować różne źródła informacji, takie jak tekst, dźwięk, wideo czy obrazy. Mamy więc do czynienia z czymś, co będzie mogło nas wyręczać (albo zastępować) w różnego typu zadaniach czy też pracy, o wiele bardziej niż obecne modele językowe. Na załączonych zdjęciach widzimy, że Kosmos-1 potrafi bardzo dobrze analizować to, co się znajduje na danym obrazie i udzielać prawidłowych informacji, odnosząc się przy okazji do całego kontekstu. Z pierwszego przykładu widzimy, że nowy MLLM bezbłędnie wskazuje, dlaczego zdjęcie kota z zasłoniętą mordką przez kartkę z namalowanym uśmiechem jest zabawne. Drugi przykład ukazuje dziecko, które się przewróciło na hulajnodze. Również w tym wypadku na pytanie, czemu ono płacze, Kosmos-1 odpowiada poprawnie. Oczywiście wszystkich przykładów nie będziemy tu omawiać, jednak daje to pewien wgląd w możliwości samego modelu. Widać, że przyszłościowo może się on przyczynić do dużego postępu w kwestii naszej bardziej naturalnej komunikacji z SI.

O burzliwej osobowości chatbota Sydney Microsoft wiedział dużo wcześniej. Dlaczego więc wtedy nie zareagował?

Co dość zaskakujące Microsoft tworzy ten model językowy całkowicie bez udziału OpenAI. Bazą dla niego również są komendy tekstowe jak w LLM, jednak przybiera on dużo bardziej człowieczy kształt z uwagi na wspomniane możliwości. Został on przetrenowany na danych z internetu, włączając w to 800 GB zbiór danych specjalnie zaprojektowany dla modeli językowych (The Pile) oraz publiczny Common Crawl. Po takim szkoleniu przyszedł czas na testy. Okazało się, że w wielu z nich Kosmos-1 był znacznie lepszy od najnowocześniejszych dostępnych modeli. W testach na inteligencję wielokrotnego wyboru - Matrycach Ravena - badacze zaznaczyli losowo odpowiedzi i poprosili model, aby wskazał, które z nich są prawidłowe. W 22% przypadków wybór był poprawny. Nie ma mowy więc o dużej precyzji, ale test udało się zaliczyć. Jednak musimy mieć na uwadze, że jest to bardzo wczesny model językowy i na ten moment jego możliwości już są zaskakujące. Z czasem ma on zostać zintegrowany z funkcją mowy. Microsoft planuje udostępnić projekt w serwisie GitHub, na ten moment nie wiadomo tylko, kiedy to się stanie.

Źródło: Ars Technica

Bądź na bieżąco - obserwuj PurePC.pl na Google News

Tagi:

Zgłoś błąd

Powiązane publikacje

165 miliardów dolarów i koniec z wysyłaniem chipów przez Pacyfik. TSMC buduje kompletny łańcuch produkcji w Ameryce

Apple oraz NVIDIA podobno są zainteresowane rozwojem litografii Intel 14A, co może być dużą szansą dla firmy

To już nie science fiction. Autonomiczny robot z AI samodzielnie operuje. Lekarze patrzyli, jak maszyna radzi sobie na sali

Przemysław Dębiak zwycięża w prestiżowym konkursie AtCoder World Tour Finals 2025, który miał być domeną AI

Przenośny laser o mocy 250 W zbudowany przez YouTubera z części policyjnego radaru i układów chłodzenia PC

Liczba komentarzy: 37

Komentarze:

Załaduj komentarze

Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3

Microsoft opracowuje Kosmos-1 - nowy multimodalny model językowy. Potrafi on rozpoznawać to, co znajduje się na obrazach oraz zdawać wizualne testy IQ. Nachodzi bardziej naturalna komunikacja z SI.

Meta prezentuje swój duży model językowy. Zuckerberg zdradził, jakiej spodziewać się wydajności względem ChatGPT

O burzliwej osobowości chatbota Sydney Microsoft wiedział dużo wcześniej. Dlaczego więc wtedy nie zareagował?

Powiązane publikacje

165 miliardów dolarów i koniec z wysyłaniem chipów przez Pacyfik. TSMC buduje kompletny łańcuch produkcji w Ameryce

Apple oraz NVIDIA podobno są zainteresowane rozwojem litografii Intel 14A, co może być dużą szansą dla firmy

To już nie science fiction. Autonomiczny robot z AI samodzielnie operuje. Lekarze patrzyli, jak maszyna radzi sobie na sali

Przemysław Dębiak zwycięża w prestiżowym konkursie AtCoder World Tour Finals 2025, który miał być domeną AI

Przenośny laser o mocy 250 W zbudowany przez YouTubera z części policyjnego radaru i układów chłodzenia PC

Komentarze:

Recenzja Razer BlackShark V3 Pro. Mają ANC, 2,4 GHz, Bluetooth, USB-C, mini jack 3,5 mm, dobry mikrofon i sporo funkcji

Test komputerów dla graczy Mad Dog PurePC Edition V4 za 5000, 6500 i 8500 zł. Gotowe zestawy dostępne w sklepach Media Expert

Recenzja Beyerdynamic Amiron 100. Tańsze od modelu Amiron 300, ale czy bardziej opłacalne? Sprawdzam

Test NVIDIA GeForce RTX 4090 Laptop pod kątem wykorzystania w generatywnej AI: NVIDIA NIM, Blueprint oraz Blender

Test smartfona Samsung Galaxy Z Fold7 - najciekawszy Fold od lat! Smukła konstrukcja, aparat 200 MP i... jeden duży mankament

Cronos: The New Dawn - poznaliśmy datę premiery. Pojawiły się szczegóły przedsprzedaży edycji Standard oraz Deluxe

AMD rozważa stworzenie dedykowanej karty NPU. Układy AI na wzór osobnych kart graficznych mogą trafić do komputerów PC

Ninja Gaiden: Ragebound - platformowy spin-off kultowej serii ze świetnymi ocenami na start. Już dziś premiera

Wyniki finansowe Qualcomm za Q2 2025 ujawniają 17 proc. wzrost przychodów dzięki sektorom Automotive i IoT

ASML i europejscy producenci sprzętu półprzewodnikowego zwolnieni z ceł USA dzięki nowej umowie handlowej UE-USA

Karty graficzne NVIDIA GeForce RTX 50 SUPER mają ukazać się jeszcze w tym roku. To dobra wiadomość dla niecierpliwych graczy

Jaki procesor kupić? Co wybrać w cenie od 400 do 3500 złotych? Lepszy Intel czy AMD? Poradnik zakupowy na lipiec 2025

AMD Radeon RX 9070 XT nadal na szczycie listy bestsellerów w MindFactory. Również tańsze modele RDNA 4 są rozchwytywane

AMD planowało wydanie układu RDNA 3 mającego rywalizować z GeForce RTX 4090? Mamy zdjęcia prototypowego chłodzenia

Sterowniki NVIDIA 590.26 w wersji preview wprowadzają obsługę Smooth Motion dla kart GeForce RTX 4000

O portalu PurePC

Najważniejsze

Znajdź PurePC na