Gemini - Google prezentuje nowy, multimodalny model sztucznej inteligencji. Możliwościami wyprzedza ChatGPT
W wyścigu związanym ze sztuczną inteligencją nieoczekiwanie na prowadzenie zdaje się wysuwać Google. Wczoraj (6 grudnia 2023) firma zaprezentowała swój nowy, multimodalny model AI o nazwie Gemini. W przeciwieństwie do obecnego Google Barda, nowość potrafi interpretować zarówno tekst, dźwięki, obrazy, jak i wideo, a przy okazji nie ma problemu z generowaniem kodu. Według badań jest to pierwszy model, który osiąga lepsze wyniki w teście MMLU (Massive Multitask Language Understanding) od ludzi.
Google zaprezentowało właśnie swój najnowszy multimodalny model AI pod nazwą Gemini. Jego możliwości mają przewyższać model GPT-4 znany z ChatGPT. Na dodatek Gemini potrafi interpretować świat w ten sam sposób, w jaki robią to ludzie.
Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3
Początki Google, które chciało nadrobić zaległości w kwestii własnych modeli sztucznej inteligencji, nie były zbyt łatwe. Google Bard okazał się dość niedopracowanym projektem, który przez długi okres odstawał od konkurencji i bardzo często generował niepoprawne odpowiedzi. Z czasem oczywiście sytuacja zaczęła się poprawiać. Teraz jednak mamy do czynienia z modelem, który jest o wiele bardziej rozwinięty od Barda, a jego możliwości są naprawdę całkiem spore. Gemini jest w stanie bowiem interpretować obraz z kamery w czasie rzeczywistym i odpowiadać na zadane pytania. Na prezentacjach poniżej możemy zobaczyć jego działanie "na żywo". Model potrafi zidentyfikować widziane obiekty, porównać je z innymi, a także określić, z jakiego materiału są zrobione. Bez problemu rozwiązuje różnego rodzaju zagadki i rebusy, a także generuje obrazy na podstawie tych widzianych (z muzyką również nie ma problemu). Modele multimodalne są w stanie zrobić o wiele więcej od tych, które nazywamy dużymi modelami językowymi (LLM). Te drugie potrafią "jedynie" generować tekst, natomiast do innych zadań potrzebują połączenia z kolejnymi modelami.
ChatGPT Plus - OpenAI wzbogaca multimodalny model. Nowa aktualizacja pozwala chatbotowi na pracę z plikami
Google Gemini będzie występować w trzech wariantach: Nano, Pro i Ultra. Gemini Nano jest dodatkowo podzielony na dwie odsłony - Nano-1 (1,8 mld parametrów) oraz Nano-2 (3,25 mld parametrów). Swoje zastosowanie znajdzie on w urządzeniach mobilnych, natomiast jego odsłona będzie zależeć od dostępnej pamięci urządzenia (teraz smartfony z 24 GB pamięci RAM zaczynają mieć sens). Zadebiutował on właśnie w smartfonie Google Pixel 8 Pro. Gemini Pro ma większe możliwości i jest już zintegrowany z chatbotem Google Bard, choć na razie tylko w języku angielskim. Natomiast Gemini Ultra jest najbardziej zaawansowanym modelem, który może skorzystać ze wszystkich zaprezentowanych funkcjonalności. Na początku 2024 roku zostanie od wdrożony do usługi Google Bard Advanced, która będzie jedną z pierwszych obsługujących nowość. Z czasem Gemini zawita do przeglądarki Google Chrome, a obecnie jest już testowany w wyszukiwarce Google. Z poniższych materiałów wideo możemy dowiedzieć się więcej, a jeśli mamy ochotę zapoznać się z całą dokumentacją, powinniśmy udać się pod ten adres.
Powiązane publikacje

CrystalMark Retro 2.0.0 to nowa wersja kultowego benchmarku z obsługą systemów od Microsoft Windows 95 do Windows 11
12
Google Gemini 2.5 Pro dostępny za darmo. Nowy model AI zaskakuje wynikami w testach i multimodalnością
23
Apple planuje rewolucję w aplikacji Zdrowie, wprowadzając wirtualnego lekarza wykorzystującego sztuczną inteligencję
24
Przeglądarka internetowa Vivaldi integruje się z Proton VPN. Użytkownicy mogą stać się bardziej anonimowi w Internecie
142