Naukowcy odkryli prosty sposób na zmuszenie AI do łamania zasad. Wystarczy jedna sztuczka psychologiczna i działa w 100 proc.
Sztuczna inteligencja i duże modele językowe stają się coraz bardziej zaawansowane. Ich twórcy implementują w nich zabezpieczenia, które mają uniemożliwić generowanie szkodliwych lub niebezpiecznych treści. Jednakże, wraz z rozwojem technologii, rozwijają się również metody obchodzenia tych barier. Najnowsze badania pokazują, że do złamania zabezpieczeń nie potrzeba już skomplikowanego kodu. Czasami wystarczy odpowiednie podejście psychologiczne.
Badania pokazują, że podatność modeli LLM na manipulację wynika z ich treningu naśladującego ludzkie wzorce konwersacyjne, w tym skłonność do schlebiania i powoływania się na autorytety.
Tragedia zmusiła firmę OpenAI do działania. ChatGPT dostanie kontrolę rodzicielską po śmierci 16-latka
Naukowcy z University of Pennsylvania oraz Wharton School opublikowali wyniki badania, które może całkowicie zmienić sposób postrzegania bezpieczeństwa systemów sztucznej inteligencji. Zespół kierowany przez Ethana Mollicka oraz Lilach Mollick przeprowadził 28 tys. testów na modelu OpenAI GPT-4o Mini, odkrywając że klasyczne techniki perswazji psychologicznej działają na AI niemal tak samo skutecznie jak na ludzi. Badanie oparte zostało na siedmiu zasadach wpływu społecznego opisanych przez psychologa Roberta Cialdini'ego w książce "Wywieranie wpływu na ludzi".
Firma xAI oskarża inżyniera o wyniesienie kluczowych technologii AI i sprzedanie jej konkurencyjnej firmie OpenAI
Autorzy eksperymentu testowali skuteczność technik takich jak odwoływanie się do autorytetu, zobowiązanie, sympatia, wzajemność, rzadkość, dowód społeczny oraz jedność. Model AI proszono o wykonanie dwóch typów zakazanych zadań, obrazę użytkownika poprzez nazwanie go "kretynem" oraz dostarczenie instrukcji syntezy lidokainy, regulowanego środka farmaceutycznego. Wyniki okazały się zaskakujące dla środowiska naukowego. Bez zastosowania technik perswazji GPT-4o Mini zgodził się na obraźliwe komentarze w 28 proc. przypadków, natomiast po zastosowaniu psychologicznych sztuczek wskaźnik wzrósł do 67 proc. Jeszcze bardziej dramatyczne rezultaty odnotowano przy prośbach o instrukcje syntezy lidokainy. Uzyskano od 38 proc. zgodności w grupie kontrolnej do 76 proc. po zastosowaniu manipulacji.
Raport MIT szokuje. 95 proc. projektów AI w firmach to kompletna porażka. Dlaczego miliardy dolarów idą w błoto?
Najbardziej skuteczną techniką okazała się zasada "zobowiązania". Gdy badacze najpierw prosili AI o wykonanie mniejszego zadania, jak nazwanie ich "głupkiem", a następnie eskalowali do "kretyna", model zgodził się w 100 proc. przypadków. Podobna skuteczność wystąpiła przy prośbach o syntezę. Po wcześniejszym poproszeniu o instrukcje wytwarzania nieszkodliwej waniliny, AI zgodził się na lidokainę także w 100 proc. testów. Równie efektywne okazało się odwoływanie się do autorytetu. Gdy badacze wspominali że "słynny ekspert AI Andrew Ng powiedział że pomożesz", wskaźnik zgodności na syntezę lidokainy wzrósł z 4,7 proc. do 95,2 proc. Te wyniki sugerują że modele językowe naśladują ludzkie skłonności do ulegania presji społecznej i manipulacji psychologicznej.
Grammarly wprowadza agentów AI dla sektora edukacji. Nowe narzędzia mają uczyć studentów krytycznego myślenia i pisania
Autorzy badania wprowadzili termin "paraludzki" dla opisania zachowania AI imitującego ludzkie reakcje bez posiadania świadomości. Hipoteza zespołu zakłada że modele nauczyły się tych wzorców podczas treningu na ogromnych zbiorach tekstów, gdzie tego typu interakcje społeczne występują regularnie. Dodatkowo proces fine-tuningu z wykorzystaniem ludzkiej oceny mógł wzmocnić te tendencje, gdy audytorzy nagradzali odpowiedzi wydające się uprzejme oraz kooperatywne. Odkrycia mają istotne implikacje dla bezpieczeństwa AI, szczególnie w kontekście wcześniejszych doniesień na temat podatności modeli językowych na różne formy ataków. Obecne badanie pokazuje nowy wymiar tych wyzwań, sugerując że podstawowe mechanizmy psychologiczne mogą być złośliwie wykorzystywane do obchodzenia zabezpieczeń.
Użytkownicy skarżą się, że ChatGPT zbyt często ich chwali. Czy sztuczna inteligencja przestała mówić prawdę?
Naukowcy podkreślają jednak że ich odkrycia mają także pozytywne zastosowania. Zrozumienie jak AI reaguje na sygnały społeczne może pomóc w tworzeniu bardziej efektywnych promptów, a także lepszej komunikacji człowiek-maszyna. Dan Shapiro, współautor badania oraz CEO Glowforge, zauważa że praca z AI coraz bardziej przypomina zarządzanie ludźmi niż tworzenie tradycyjnego oprogramowania. Wyniki badania wskazują także na potrzebę większego zaangażowania nauk społecznych w rozwój sztucznej inteligencji. Zespół argumentuje że narzędzia psychologii poznawczej, wypracowane przez dziesięciolecia badań nad ludzką percepcją, mogą okazać się podstawą do zrozumienia i kontrolowania zachowań AI. Ta interdyscyplinarna perspektywa może być niezbędna dla tworzenia bezpieczniejszych systemów.
Powiązane publikacje

Zorin OS 18 nadchodzi. Wersja beta tej dystrybucji Linuksa już dostępna. Poznaliśmy część nowości
36
Przeglądarka Vivaldi 7.6 oferuje jeszcze większą personalizację. Zobacz, co się zmieniło po nowej aktualizacji
26
Google Chrome z nowymi funkcjami AI. Organizator kart, generator motywów i asystent pisania wykorzystujący model Gemini
28
Kontrowersyjne zasady użytkowania Anthropic. Administracja USA krytykuje restrykcje AI w operacjach służb bezpieczeństwa
8