OpenAI wkracza w erę agentów AI. Sztuczna inteligencja zrobi, o co prosisz... o ile jej zapłacisz. Operator już dostępny w USA
Rozwój sztucznej inteligencji dość mocno przyspieszył od momentu przedstawienia chatbota ChatGPT pod koniec 2022 roku. Od tego czasu na rynku pojawiło się mnóstwo alternatywnych rozwiązań, a także modele zdolne generować obrazy, muzykę, a nawet krótkie wideo. Firmy pracują obecnie nad wprowadzeniem agentów AI, czyli modeli, które będą w stanie wykonywać zadania w prawdziwym świecie. OpenAI właśnie zaprezentowało taką nowość pod nazwą Operator.
Operator to pierwszy agent AI od OpenAI, który może wykonywać akcje w prawdziwym świecie. W obecnej fazie ma jeszcze swoje ograniczenia, a przy tym dostęp do niego mają tylko subskrybenci ChatGPT Pro z USA.
Sztuczna inteligencja uczy się korzystać z komputera. Anthropic zwiększa możliwości modelu Claude 3.5 Sonnet
Przyszłościowa wizja powoli zaczyna się urzeczywistniać - sztuczna inteligencja będzie w stanie wykonywać działania, o które ją poprosimy. Oczywiście niesie to za sobą wiele zagrożeń - tym bardziej że do tej pory nie rozwiązano problemu halucynacji (w skrócie: podawanie fałszywych informacji jako prawdziwe). Operator od OpenAI opiera się na nowym modelu Computer-Using Agent (CUA). Został wytrenowany w taki sposób, żeby wchodzić w interakcje z graficznym interfejsem użytkownika (tzw. GUI), a więc przyciskami, menu, czy też polami tekstowymi. Po wydaniu mu polecenia, otworzy on wbudowaną przeglądarkę internetową i zacznie je wykonywać. Może się posługiwać wirtualną myszką i klawiaturą, więc praktycznie wszystkie możliwe akcje są dostępne.
ChatGPT staje się wyszukiwarką internetową. Darmowy rywal dla Google, który ma znacznie większe możliwości
W praktyce Operator wykonuje zrzut ekranu z przeglądarki internetowej, analizuje go i podejmuje określone działanie. Gdy już je wykona, robi następny zrzut ekranu i powtarza wspomniane czynności aż do zakończenia całego procesu. W każdym momencie można przejąć kontrolę i wtedy nowość od OpenAI nie będzie przechwytywać tego, co się dzieje na ekranie. Dodatkowo Operator poprosi użytkownika o przejęcie kontroli w momencie, gdy trzeba będzie wykonać konkretne akcje, takie jak podanie loginu i hasła, danych płatniczych, czy też przejście przez CAPTCHA. Przed zatwierdzeniem ważnych operacji użytkownik musi je też potwierdzić. Zarazem możemy dać mu do wykonania wiele poleceń (np. kupno określonych produktów z wybranego sklepu, rezerwacja stolika w restauracji, zamówienie konkretnej usługi itd.).
Operator w obecnej fazie ma oczywiście ograniczenia, a także może się mylić. OpenAI wdrożyło odpowiednie zabezpieczenia, aby użytkownik nie mógł nabyć przez to rozwiązanie nielegalnych towarów, czy też broni. Agent AI nie wykona też transakcji bankowych ani innych zadań, które są dość istotne (np. decyzja w sprawie aplikacji o pracę). Nie ma on także dostępu do stron hazardowych lub takich, na których występują plugawe treści. Ponadto ma być odporny na obejście tych zabezpieczeń. Na ten moment Operator dostępny jest tylko dla użytkowników w USA, którzy subskrybują plan ChatGPT Pro (200 dolarów miesięcznie). Z czasem ma zostać udostępniony dla planów Plus, Team i Enterprise, a ostatecznie zostanie zintegrowany z chatbotem ChatGPT. Niebawem pojawi się interfejs API dla modelu CUA, co pozwoli innym deweloperom na tworzenie własnych agentów AI. Więcej informacji o wspomnianym modelu znajdziemy pod tym adresem.
Powiązane publikacje

Gemini Live z większymi możliwościami już wkrótce. Jednak bez subskrypcji nie skorzystamy z nowości od Google
8
Nadchodzą chatboty, które będą działać 10x szybciej od obecnych. Mercury to pierwsza seria dLLM, która to udowadnia
40
Komunikator Skype oficjalnie się żegna. Firma Microsoft zachęca do pozostawienia go na rzecz platformy Teams
40
OpenAI prezentuje GPT-4.5. Największy model AI już dostępny dla subskrybentów ChatGPT Pro. Większa wiedza i naturalne rozmowy
14