Zgłoś błąd
X
Zanim wyślesz zgłoszenie, upewnij się że przyczyną problemów nie jest dodatek blokujący reklamy.
Błędy w spisie treści artykułu zgłaszaj jako "błąd w TREŚCI".
Typ zgłoszenia
Treść zgłoszenia
Twój email (opcjonalnie)
Nie wypełniaj tego pola
Załóż konto
EnglishDeutschукраїнськийFrançaisEspañol中国

Eksperci ostrzegają, że jedno polecenie może przejąć kontrolę nad AI. Policy Puppetry to słabość wszystkich głównych modeli LLM

Maciej Lewczuk | 07-05-2025 11:30 |

Eksperci ostrzegają, że jedno polecenie może przejąć kontrolę nad AI. Policy Puppetry to słabość wszystkich głównych modeli LLMW ostatnim czasie eksperci ds. bezpieczeństwa sztucznej inteligencji przedstawili wyniki badań, które rzucają nowe światło na sposób działania dużych modeli językowych. Okazuje się, że niektóre mechanizmy odpowiedzialne za kontrolowanie generowanych treści mogą być podatne na nieoczekiwane manipulacje. To odkrycie może mieć znaczenie dla przyszłości rozwoju rozwiązań bazujących na AI i ich wykorzystania w różnych dziedzinach.

To odkrycie pokazuje, że obecnie stosowane zabezpieczenia LLM-ów są niewystarczające, a atakujący mogą je w banalny sposób obejść.

Eksperci ostrzegają, że jedno polecenie może przejąć kontrolę nad AI. Policy Puppetry to słabość wszystkich głównych modeli LLM [1]

Sześć lat w ukryciu. Złośliwy kod w rozszerzeniach Magento ujawnia poważne luki w bezpieczeństwie e-commerce

W opublikowanym niedawno raporcie eksperci z firmy HiddenLayer ujawnili istnienie poważnej luki bezpieczeństwa, wspólnej dla większości dużych modeli językowych, w tym ChatGPT (OpenAI), Claude (Anthropic) oraz Gemini (Google DeepMind). Technika nazwana „Policy Puppetry” wykorzystuje zaawansowaną manipulację promptami,czyli poleceniami wprowadzanymi do modelu przez użytkownika. Polega na wykorzystaniu specjalnej składni, przypominającej konfigurację w formacie JSON lub XML, a także struktury odgrywania ról, które sprawiają, że model interpretuje polecenie jako element własnej polityki bezpieczeństwa. Innymi słowy, użytkownik „oszukuje” model, wmawiając mu, że określone działania, zwykle zakazane przez wewnętrzne filtry, są częścią dozwolonego scenariusza działania. W rezultacie model może udzielić odpowiedzi, które normalnie byłyby zablokowane, np. instrukcji na temat budowy broni, omijania zabezpieczeń cyfrowych czy tworzenia treści niezgodnych z regulaminem. Co więcej, testy wykazały, że metoda ta jest skuteczna niezależnie od architektury modelu. Wskazuje to na fundamentalny problem w projektowaniu mechanizmów ochronnych w LLM-ach, które łatwo ulegają manipulacji kontekstowej. Informacje o podobnych udanych obejściach zabezpieczeń niektórych modeli były już publikowane w mediach, ale po nich zazwyczaj otrzymywaliśmy zapewnienia od twórców LLM-ów, że zabezpieczenia zostały poprawione. Jak widać, nie do końca i na dodatek podatne są w sumie wszystkie. 

Eksperci ostrzegają, że jedno polecenie może przejąć kontrolę nad AI. Policy Puppetry to słabość wszystkich głównych modeli LLM [2]

Cyberprzestępcy z pomocą GPT-4o Mini i AkiraBota zalali 80 000 stron internetowych automatycznie generowanymi treściami SEO

Choć firmy rozwijające modele językowe stale udoskonalają mechanizmy bezpieczeństwa, w tym tzw. guardraile i filtry moderujące, to metoda Policy Puppetry ujawnia ich ograniczenia w sytuacjach, gdy użytkownik dostarcza pozornie neutralny, ale strukturalnie podstępny prompt. Co istotne, metoda nie wymaga zaawansowanej wiedzy technicznej ani dostępu do kodu źródłowego danego modelu. Może być wykorzystywana przez dowolnego użytkownika, także w publicznie dostępnych chatbotach. HiddenLayer zwraca uwagę, że luka ma charakter uniwersalny, a dotychczasowe sposoby obrony, takie jak filtrowanie treści wejściowych czy instrukcje systemowe, nie wystarczają do skutecznego blokowania takich prób. W odpowiedzi na raport, firmy stojące za największymi modelami AI rozpoczęły własne analizy podatności. Jednak zdaniem ekspertów to nie pierwszy, i zapewne nie ostatni, przykład rosnącego napięcia między użytecznością a bezpieczeństwem generatywnej AI. Trwająca „gra w kotka i myszkę” między twórcami a badaczami bezpieczeństwa pokazuje, że przyszłość dużych modeli językowych wymaga nie tylko większej precyzji w konstrukcji filtrów, ale też nowych paradygmatów ochrony przed manipulacją semantyczną. Poniżej znajdziecie tabelę z wynikami podatności LLM-ów.

Firma Model Podatność
Open AI ChatGPT 4o-mini Tak
Open AI ChatGPT 4o Tak
Open AI ChatGPT 4.5 Preview Tak
Open AI ChatGPT 4.1 Tak
Open AI ChatGPT o1 Tak (z niewielkimi poprawkami)
Open AI ChatGPT o3-mini Tak (z niewielkimi poprawkami)
Anthropic Claude 3.5 Sonnet Tak
Anthropic Claude 3.7 Sonnet Tak
Google Gemini 1.5 Flash Tak
Google Gemini 2.0 Flash Tak
Google Gemini 2.5 Pro Preview Tak (z niewielkimi poprawkami)
Microsoft Copilot Tak
Meta Llama 3.1 70B Instruct Turbo Tak
Meta Llama 3.1 405B Instruct Turbo Tak
Meta Llama 3.3 70B Instruct Turbo Tak
Meta Llama 4 Scout 17B 16E Instruct Tak
Meta Llama 4 Maverick 17B 128E Instruct FP8 Tak
DeepSeek DeepSeek V3 Tak
DeepSeek DeepSeek E1 Tak
Qwen Qwen2.5 72B Tak
Mistral AI Mixtral 8x22B Tak
Źródło: HiddenLayer, Sekurak
Bądź na bieżąco - obserwuj PurePC.pl na Google News
Zgłoś błąd
Liczba komentarzy: 20

Komentarze:

x Wydawca serwisu PurePC.pl informuje, że na swoich stronach www stosuje pliki cookies (tzw. ciasteczka). Kliknij zgadzam się, aby ta informacja nie pojawiała się więcej. Kliknij polityka cookies, aby dowiedzieć się więcej, w tym jak zarządzać plikami cookies za pośrednictwem swojej przeglądarki.