Zgłoś błąd
X
Zanim wyślesz zgłoszenie, upewnij się że przyczyną problemów nie jest dodatek blokujący reklamy.
Błędy w spisie treści artykułu zgłaszaj jako "błąd w TREŚCI".
Typ zgłoszenia
Treść zgłoszenia
Twój email (opcjonalnie)
Nie wypełniaj tego pola
.
Załóż konto
EnglishDeutschукраїнськийFrançaisEspañol中国

Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3

Natan Faleńczyk | 02-03-2023 11:40 |

Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3Dział SI cały czas się rozwija wręcz w błyskawicznym tempie. Nie tak dawno słyszeliśmy o tym, jak Meta zaprezentowała swoje rozwiązanie, a już mamy do czynienia z następnym modelem językowym. Tym razem jednak Microsoft postanowił skupić się na tzw. multimodalnym modelu. W przeciwieństwie do GPT-3 i LLAMA, potrafi on analizować to, co znajduje się na zdjęciach oraz udzielać na ich podstawie odpowiedzi. Już we wstępnej fazie rozwoju potrafi zaskakiwać.

Microsoft opracowuje Kosmos-1 - nowy multimodalny model językowy. Potrafi on rozpoznawać to, co znajduje się na obrazach oraz zdawać wizualne testy IQ. Nachodzi bardziej naturalna komunikacja z SI.

Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3 [1]

Meta prezentuje swój duży model językowy. Zuckerberg zdradził, jakiej spodziewać się wydajności względem ChatGPT

Firma, tworząc ten model językowy, miała jeden cel - stworzyć podwaliny dla sztucznej inteligencji, która pod względem możliwości będzie na naszym, ludzkim poziomie. Sam model multimodalny (MLLM) różni się od "zwykłego" (LLM) tym, że potrafi intepretować różne źródła informacji, takie jak tekst, dźwięk, wideo czy obrazy. Mamy więc do czynienia z czymś, co będzie mogło nas wyręczać (albo zastępować) w różnego typu zadaniach czy też pracy, o wiele bardziej niż obecne modele językowe. Na załączonych zdjęciach widzimy, że Kosmos-1 potrafi bardzo dobrze analizować to, co się znajduje na danym obrazie i udzielać prawidłowych informacji, odnosząc się przy okazji do całego kontekstu. Z pierwszego przykładu widzimy, że nowy MLLM bezbłędnie wskazuje, dlaczego zdjęcie kota z zasłoniętą mordką przez kartkę z namalowanym uśmiechem jest zabawne. Drugi przykład ukazuje dziecko, które się przewróciło na hulajnodze. Również w tym wypadku na pytanie, czemu ono płacze, Kosmos-1 odpowiada poprawnie. Oczywiście wszystkich przykładów nie będziemy tu omawiać, jednak daje to pewien wgląd w możliwości samego modelu. Widać, że przyszłościowo może się on przyczynić do dużego postępu w kwestii naszej bardziej naturalnej komunikacji z SI.

Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3 [2]Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3 [3]

O burzliwej osobowości chatbota Sydney Microsoft wiedział dużo wcześniej. Dlaczego więc wtedy nie zareagował?

Co dość zaskakujące Microsoft tworzy ten model językowy całkowicie bez udziału OpenAI. Bazą dla niego również są komendy tekstowe jak w LLM, jednak przybiera on dużo bardziej człowieczy kształt z uwagi na wspomniane możliwości. Został on przetrenowany na danych z internetu, włączając w to 800 GB zbiór danych specjalnie zaprojektowany dla modeli językowych (The Pile) oraz publiczny Common Crawl. Po takim szkoleniu przyszedł czas na testy. Okazało się, że w wielu z nich Kosmos-1 był znacznie lepszy od najnowocześniejszych dostępnych modeli. W testach na inteligencję wielokrotnego wyboru - Matrycach Ravena - badacze zaznaczyli losowo odpowiedzi i poprosili model, aby wskazał, które z nich są prawidłowe. W 22% przypadków wybór był poprawny. Nie ma mowy więc o dużej precyzji, ale test udało się zaliczyć. Jednak musimy mieć na uwadze, że jest to bardzo wczesny model językowy i na ten moment jego możliwości już są zaskakujące. Z czasem ma on zostać zintegrowany z funkcją mowy. Microsoft planuje udostępnić projekt w serwisie GitHub, na ten moment nie wiadomo tylko, kiedy to się stanie.

Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3 [4]Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3 [5]

Źródło: Ars Technica
Bądź na bieżąco - obserwuj PurePC.pl na Google News
Zgłoś błąd
Liczba komentarzy: 38

Komentarze:

x Wydawca serwisu PurePC.pl informuje, że na swoich stronach www stosuje pliki cookies (tzw. ciasteczka). Kliknij zgadzam się, aby ta informacja nie pojawiała się więcej. Kliknij polityka cookies, aby dowiedzieć się więcej, w tym jak zarządzać plikami cookies za pośrednictwem swojej przeglądarki.