Gemini - Google prezentuje nowy, multimodalny model sztucznej inteligencji. Możliwościami wyprzedza ChatGPT
W wyścigu związanym ze sztuczną inteligencją nieoczekiwanie na prowadzenie zdaje się wysuwać Google. Wczoraj (6 grudnia 2023) firma zaprezentowała swój nowy, multimodalny model AI o nazwie Gemini. W przeciwieństwie do obecnego Google Barda, nowość potrafi interpretować zarówno tekst, dźwięki, obrazy, jak i wideo, a przy okazji nie ma problemu z generowaniem kodu. Według badań jest to pierwszy model, który osiąga lepsze wyniki w teście MMLU (Massive Multitask Language Understanding) od ludzi.
Google zaprezentowało właśnie swój najnowszy multimodalny model AI pod nazwą Gemini. Jego możliwości mają przewyższać model GPT-4 znany z ChatGPT. Na dodatek Gemini potrafi interpretować świat w ten sam sposób, w jaki robią to ludzie.
Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3
Początki Google, które chciało nadrobić zaległości w kwestii własnych modeli sztucznej inteligencji, nie były zbyt łatwe. Google Bard okazał się dość niedopracowanym projektem, który przez długi okres odstawał od konkurencji i bardzo często generował niepoprawne odpowiedzi. Z czasem oczywiście sytuacja zaczęła się poprawiać. Teraz jednak mamy do czynienia z modelem, który jest o wiele bardziej rozwinięty od Barda, a jego możliwości są naprawdę całkiem spore. Gemini jest w stanie bowiem interpretować obraz z kamery w czasie rzeczywistym i odpowiadać na zadane pytania. Na prezentacjach poniżej możemy zobaczyć jego działanie "na żywo". Model potrafi zidentyfikować widziane obiekty, porównać je z innymi, a także określić, z jakiego materiału są zrobione. Bez problemu rozwiązuje różnego rodzaju zagadki i rebusy, a także generuje obrazy na podstawie tych widzianych (z muzyką również nie ma problemu). Modele multimodalne są w stanie zrobić o wiele więcej od tych, które nazywamy dużymi modelami językowymi (LLM). Te drugie potrafią "jedynie" generować tekst, natomiast do innych zadań potrzebują połączenia z kolejnymi modelami.
ChatGPT Plus - OpenAI wzbogaca multimodalny model. Nowa aktualizacja pozwala chatbotowi na pracę z plikami
Google Gemini będzie występować w trzech wariantach: Nano, Pro i Ultra. Gemini Nano jest dodatkowo podzielony na dwie odsłony - Nano-1 (1,8 mld parametrów) oraz Nano-2 (3,25 mld parametrów). Swoje zastosowanie znajdzie on w urządzeniach mobilnych, natomiast jego odsłona będzie zależeć od dostępnej pamięci urządzenia (teraz smartfony z 24 GB pamięci RAM zaczynają mieć sens). Zadebiutował on właśnie w smartfonie Google Pixel 8 Pro. Gemini Pro ma większe możliwości i jest już zintegrowany z chatbotem Google Bard, choć na razie tylko w języku angielskim. Natomiast Gemini Ultra jest najbardziej zaawansowanym modelem, który może skorzystać ze wszystkich zaprezentowanych funkcjonalności. Na początku 2024 roku zostanie od wdrożony do usługi Google Bard Advanced, która będzie jedną z pierwszych obsługujących nowość. Z czasem Gemini zawita do przeglądarki Google Chrome, a obecnie jest już testowany w wyszukiwarce Google. Z poniższych materiałów wideo możemy dowiedzieć się więcej, a jeśli mamy ochotę zapoznać się z całą dokumentacją, powinniśmy udać się pod ten adres.
Powiązane publikacje

Właściciel WordPress redukuje zatrudnienie. 280 pracowników zwolnionych w ramach restrukturyzacji
19
Thunderbird stawia na przyszłość poczty. Thundermail i nowa wersja Pro z zaawansowanymi funkcjami dla wymagających
30
Jaka przeglądarka zapewnia największą prywatność? Ranking aplikacji na 2025 rok dla Linux, iOS, Android, Windows oraz macOS
54
Skylight to nowy rywal TikToka wspierany przez biznesmena Marka Cubana, wykorzystujący technologię Bluesky
8