Gemini - Google prezentuje nowy, multimodalny model sztucznej inteligencji. Możliwościami wyprzedza ChatGPT

Natan Faleńczyk | 07-12-2023 12:30 |

Oprogramowanie

Gemini - Google prezentuje nowy, multimodalny model sztucznej inteligencji. Możliwościami wyprzedza ChatGPT W wyścigu związanym ze sztuczną inteligencją nieoczekiwanie na prowadzenie zdaje się wysuwać Google. Wczoraj (6 grudnia 2023) firma zaprezentowała swój nowy, multimodalny model AI o nazwie Gemini. W przeciwieństwie do obecnego Google Barda, nowość potrafi interpretować zarówno tekst, dźwięki, obrazy, jak i wideo, a przy okazji nie ma problemu z generowaniem kodu. Według badań jest to pierwszy model, który osiąga lepsze wyniki w teście MMLU (Massive Multitask Language Understanding) od ludzi.

Google zaprezentowało właśnie swój najnowszy multimodalny model AI pod nazwą Gemini. Jego możliwości mają przewyższać model GPT-4 znany z ChatGPT. Na dodatek Gemini potrafi interpretować świat w ten sam sposób, w jaki robią to ludzie.

Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3

Początki Google, które chciało nadrobić zaległości w kwestii własnych modeli sztucznej inteligencji, nie były zbyt łatwe. Google Bard okazał się dość niedopracowanym projektem, który przez długi okres odstawał od konkurencji i bardzo często generował niepoprawne odpowiedzi. Z czasem oczywiście sytuacja zaczęła się poprawiać. Teraz jednak mamy do czynienia z modelem, który jest o wiele bardziej rozwinięty od Barda, a jego możliwości są naprawdę całkiem spore. Gemini jest w stanie bowiem interpretować obraz z kamery w czasie rzeczywistym i odpowiadać na zadane pytania. Na prezentacjach poniżej możemy zobaczyć jego działanie "na żywo". Model potrafi zidentyfikować widziane obiekty, porównać je z innymi, a także określić, z jakiego materiału są zrobione. Bez problemu rozwiązuje różnego rodzaju zagadki i rebusy, a także generuje obrazy na podstawie tych widzianych (z muzyką również nie ma problemu). Modele multimodalne są w stanie zrobić o wiele więcej od tych, które nazywamy dużymi modelami językowymi (LLM). Te drugie potrafią "jedynie" generować tekst, natomiast do innych zadań potrzebują połączenia z kolejnymi modelami.

ChatGPT Plus - OpenAI wzbogaca multimodalny model. Nowa aktualizacja pozwala chatbotowi na pracę z plikami

Google Gemini będzie występować w trzech wariantach: Nano, Pro i Ultra. Gemini Nano jest dodatkowo podzielony na dwie odsłony - Nano-1 (1,8 mld parametrów) oraz Nano-2 (3,25 mld parametrów). Swoje zastosowanie znajdzie on w urządzeniach mobilnych, natomiast jego odsłona będzie zależeć od dostępnej pamięci urządzenia (teraz smartfony z 24 GB pamięci RAM zaczynają mieć sens). Zadebiutował on właśnie w smartfonie Google Pixel 8 Pro. Gemini Pro ma większe możliwości i jest już zintegrowany z chatbotem Google Bard, choć na razie tylko w języku angielskim. Natomiast Gemini Ultra jest najbardziej zaawansowanym modelem, który może skorzystać ze wszystkich zaprezentowanych funkcjonalności. Na początku 2024 roku zostanie od wdrożony do usługi Google Bard Advanced, która będzie jedną z pierwszych obsługujących nowość. Z czasem Gemini zawita do przeglądarki Google Chrome, a obecnie jest już testowany w wyszukiwarce Google. Z poniższych materiałów wideo możemy dowiedzieć się więcej, a jeśli mamy ochotę zapoznać się z całą dokumentacją, powinniśmy udać się pod ten adres.

Źródło: Google

Bądź na bieżąco - obserwuj PurePC.pl na Google News

Tagi:

Zgłoś błąd

Powiązane publikacje

Google wdraża nowe narzędzie zarządzania subskrypcjami w Gmail, usprawniające obsługę newsletterów i promocji

Asystent Gemini zyskuje nowe uprawnienia systemowe do WhatsApp, SMS i połączeń telefonicznych. Możesz to wyłączyć

Jack Dorsey wypuszcza BitChat - komunikator peer-to-peer działający w sieci mesh Bluetooth LE bez dostępu do internetu

Badacze ukrywają prompty AI w publikacjach naukowych, aby manipulować systemami recenzji peer-review

Czym jest Flatpak i jaki ma związek z Flathub? Krótkie omówienie Linuksowych rozwiązań i garść nowych statystyk

Liczba komentarzy: 10

Komentarze:

Załaduj komentarze

Gemini - Google prezentuje nowy, multimodalny model sztucznej inteligencji. Możliwościami wyprzedza ChatGPT

Google zaprezentowało właśnie swój najnowszy multimodalny model AI pod nazwą Gemini. Jego możliwości mają przewyższać model GPT-4 znany z ChatGPT. Na dodatek Gemini potrafi interpretować świat w ten sam sposób, w jaki robią to ludzie.

Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3

ChatGPT Plus - OpenAI wzbogaca multimodalny model. Nowa aktualizacja pozwala chatbotowi na pracę z plikami

Powiązane publikacje

Google wdraża nowe narzędzie zarządzania subskrypcjami w Gmail, usprawniające obsługę newsletterów i promocji

Asystent Gemini zyskuje nowe uprawnienia systemowe do WhatsApp, SMS i połączeń telefonicznych. Możesz to wyłączyć

Jack Dorsey wypuszcza BitChat - komunikator peer-to-peer działający w sieci mesh Bluetooth LE bez dostępu do internetu

Badacze ukrywają prompty AI w publikacjach naukowych, aby manipulować systemami recenzji peer-review

Czym jest Flatpak i jaki ma związek z Flathub? Krótkie omówienie Linuksowych rozwiązań i garść nowych statystyk

Komentarze:

Test obudowy komputerowej Corsair Frame 5000D RS - Większa i lepiej wyposażona wersja Corsair Frame 4000D RS

Test smartfona Nothing Phone (3) - wydajny i oryginalny, ale czy na pewno godny miana flagowca?

Test smartfona OnePlus Nord CE5 - na zewnątrz muzeum, w środku... liceum? Oto prawdziwy sleeper wśród smartfonów

Test smartfona vivo V50 - stylowy model z pojemną baterią. Zachwyci amatorów fotografii, ale rozczaruje maniaków wydajności

Test obudowy komputerowej FSP M580 - Jednolita szklana tafla i cztery wentylatory z efektem lustra w rozsądnej cenie

Anulowanie subskrypcji Netflix i Disney Plus pozostanie trudne po zwycięstwie w sądzie przeciwko amerykańskiemu regulatorowi

Ugoda Epic Games i Samsunga w sprawie funkcji Auto Blocker blokującej instalację Epic Games Store na smartfonach Galaxy

Google wdraża nowe narzędzie zarządzania subskrypcjami w Gmail, usprawniające obsługę newsletterów i promocji

Deepfake głosu Marco Rubio wykorzystany w cyberataku na ministrów spraw zagranicznych i gubernatorów poprzez Signala

Niższe ceny na karty graficzne GeForce RTX 5000, pamięci RAM, dyski SSD, zasilacze i sprzęt przydatny na wakacjach

Test wydajności DOOM: The Dark Ages - Path Tracing to piekielne wymagania sprzętowe. Porównanie wydajności i jakości grafiki

AMD Radeon RX 9070 XT - modele z pamięciami GDDR6 od Samsunga są trochę wolniejsze od tych z modułami od SK hynix

Jaki komputer do gier kupić? Polecane zestawy komputerowe na lipiec 2025. Komputery gamingowe w różnych cenach

Karty graficzne AMD Radeon RX 9000 w cenach blisko MSRP. Sytuacja architektury RDNA 4 wygląda już dużo lepiej

NVIDIA GeForce RTX 5070 SUPER oraz GeForce RTX 5070 Ti SUPER - Nadchodzą lepiej wyposażone karty graficzne Blackwell

O portalu PurePC

Najważniejsze

Znajdź PurePC na