Gemini - Google prezentuje nowy, multimodalny model sztucznej inteligencji. Możliwościami wyprzedza ChatGPT
W wyścigu związanym ze sztuczną inteligencją nieoczekiwanie na prowadzenie zdaje się wysuwać Google. Wczoraj (6 grudnia 2023) firma zaprezentowała swój nowy, multimodalny model AI o nazwie Gemini. W przeciwieństwie do obecnego Google Barda, nowość potrafi interpretować zarówno tekst, dźwięki, obrazy, jak i wideo, a przy okazji nie ma problemu z generowaniem kodu. Według badań jest to pierwszy model, który osiąga lepsze wyniki w teście MMLU (Massive Multitask Language Understanding) od ludzi.
Google zaprezentowało właśnie swój najnowszy multimodalny model AI pod nazwą Gemini. Jego możliwości mają przewyższać model GPT-4 znany z ChatGPT. Na dodatek Gemini potrafi interpretować świat w ten sam sposób, w jaki robią to ludzie.
Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3
Początki Google, które chciało nadrobić zaległości w kwestii własnych modeli sztucznej inteligencji, nie były zbyt łatwe. Google Bard okazał się dość niedopracowanym projektem, który przez długi okres odstawał od konkurencji i bardzo często generował niepoprawne odpowiedzi. Z czasem oczywiście sytuacja zaczęła się poprawiać. Teraz jednak mamy do czynienia z modelem, który jest o wiele bardziej rozwinięty od Barda, a jego możliwości są naprawdę całkiem spore. Gemini jest w stanie bowiem interpretować obraz z kamery w czasie rzeczywistym i odpowiadać na zadane pytania. Na prezentacjach poniżej możemy zobaczyć jego działanie "na żywo". Model potrafi zidentyfikować widziane obiekty, porównać je z innymi, a także określić, z jakiego materiału są zrobione. Bez problemu rozwiązuje różnego rodzaju zagadki i rebusy, a także generuje obrazy na podstawie tych widzianych (z muzyką również nie ma problemu). Modele multimodalne są w stanie zrobić o wiele więcej od tych, które nazywamy dużymi modelami językowymi (LLM). Te drugie potrafią "jedynie" generować tekst, natomiast do innych zadań potrzebują połączenia z kolejnymi modelami.
ChatGPT Plus - OpenAI wzbogaca multimodalny model. Nowa aktualizacja pozwala chatbotowi na pracę z plikami
Google Gemini będzie występować w trzech wariantach: Nano, Pro i Ultra. Gemini Nano jest dodatkowo podzielony na dwie odsłony - Nano-1 (1,8 mld parametrów) oraz Nano-2 (3,25 mld parametrów). Swoje zastosowanie znajdzie on w urządzeniach mobilnych, natomiast jego odsłona będzie zależeć od dostępnej pamięci urządzenia (teraz smartfony z 24 GB pamięci RAM zaczynają mieć sens). Zadebiutował on właśnie w smartfonie Google Pixel 8 Pro. Gemini Pro ma większe możliwości i jest już zintegrowany z chatbotem Google Bard, choć na razie tylko w języku angielskim. Natomiast Gemini Ultra jest najbardziej zaawansowanym modelem, który może skorzystać ze wszystkich zaprezentowanych funkcjonalności. Na początku 2024 roku zostanie od wdrożony do usługi Google Bard Advanced, która będzie jedną z pierwszych obsługujących nowość. Z czasem Gemini zawita do przeglądarki Google Chrome, a obecnie jest już testowany w wyszukiwarce Google. Z poniższych materiałów wideo możemy dowiedzieć się więcej, a jeśli mamy ochotę zapoznać się z całą dokumentacją, powinniśmy udać się pod ten adres.
Powiązane publikacje

Adobe Premiere za darmo na iPhone i iPad. Aplikacja do montażu wideo zawita też na system Android
19
Microsoft 6502 BASIC stał się otwartoźródłowy. Firma udostępniła cały kod na platformie GitHub
33
Naukowcy odkryli prosty sposób na zmuszenie AI do łamania zasad. Wystarczy jedna sztuczka psychologiczna i działa w 100 proc.
44
HunyuanWorld-Voyager, nowy model AI firmy Tencent, generuje kompletne, interaktywne sceny 3D z jednego zdjęcia
21