Eksperci ostrzegają, że jedno polecenie może przejąć kontrolę nad AI. Policy Puppetry to słabość wszystkich głównych modeli LLM
W ostatnim czasie eksperci ds. bezpieczeństwa sztucznej inteligencji przedstawili wyniki badań, które rzucają nowe światło na sposób działania dużych modeli językowych. Okazuje się, że niektóre mechanizmy odpowiedzialne za kontrolowanie generowanych treści mogą być podatne na nieoczekiwane manipulacje. To odkrycie może mieć znaczenie dla przyszłości rozwoju rozwiązań bazujących na AI i ich wykorzystania w różnych dziedzinach.
To odkrycie pokazuje, że obecnie stosowane zabezpieczenia LLM-ów są niewystarczające, a atakujący mogą je w banalny sposób obejść.
Sześć lat w ukryciu. Złośliwy kod w rozszerzeniach Magento ujawnia poważne luki w bezpieczeństwie e-commerce
W opublikowanym niedawno raporcie eksperci z firmy HiddenLayer ujawnili istnienie poważnej luki bezpieczeństwa, wspólnej dla większości dużych modeli językowych, w tym ChatGPT (OpenAI), Claude (Anthropic) oraz Gemini (Google DeepMind). Technika nazwana „Policy Puppetry” wykorzystuje zaawansowaną manipulację promptami,czyli poleceniami wprowadzanymi do modelu przez użytkownika. Polega na wykorzystaniu specjalnej składni, przypominającej konfigurację w formacie JSON lub XML, a także struktury odgrywania ról, które sprawiają, że model interpretuje polecenie jako element własnej polityki bezpieczeństwa. Innymi słowy, użytkownik „oszukuje” model, wmawiając mu, że określone działania, zwykle zakazane przez wewnętrzne filtry, są częścią dozwolonego scenariusza działania. W rezultacie model może udzielić odpowiedzi, które normalnie byłyby zablokowane, np. instrukcji na temat budowy broni, omijania zabezpieczeń cyfrowych czy tworzenia treści niezgodnych z regulaminem. Co więcej, testy wykazały, że metoda ta jest skuteczna niezależnie od architektury modelu. Wskazuje to na fundamentalny problem w projektowaniu mechanizmów ochronnych w LLM-ach, które łatwo ulegają manipulacji kontekstowej. Informacje o podobnych udanych obejściach zabezpieczeń niektórych modeli były już publikowane w mediach, ale po nich zazwyczaj otrzymywaliśmy zapewnienia od twórców LLM-ów, że zabezpieczenia zostały poprawione. Jak widać, nie do końca i na dodatek podatne są w sumie wszystkie.
Cyberprzestępcy z pomocą GPT-4o Mini i AkiraBota zalali 80 000 stron internetowych automatycznie generowanymi treściami SEO
Choć firmy rozwijające modele językowe stale udoskonalają mechanizmy bezpieczeństwa, w tym tzw. guardraile i filtry moderujące, to metoda Policy Puppetry ujawnia ich ograniczenia w sytuacjach, gdy użytkownik dostarcza pozornie neutralny, ale strukturalnie podstępny prompt. Co istotne, metoda nie wymaga zaawansowanej wiedzy technicznej ani dostępu do kodu źródłowego danego modelu. Może być wykorzystywana przez dowolnego użytkownika, także w publicznie dostępnych chatbotach. HiddenLayer zwraca uwagę, że luka ma charakter uniwersalny, a dotychczasowe sposoby obrony, takie jak filtrowanie treści wejściowych czy instrukcje systemowe, nie wystarczają do skutecznego blokowania takich prób. W odpowiedzi na raport, firmy stojące za największymi modelami AI rozpoczęły własne analizy podatności. Jednak zdaniem ekspertów to nie pierwszy, i zapewne nie ostatni, przykład rosnącego napięcia między użytecznością a bezpieczeństwem generatywnej AI. Trwająca „gra w kotka i myszkę” między twórcami a badaczami bezpieczeństwa pokazuje, że przyszłość dużych modeli językowych wymaga nie tylko większej precyzji w konstrukcji filtrów, ale też nowych paradygmatów ochrony przed manipulacją semantyczną. Poniżej znajdziecie tabelę z wynikami podatności LLM-ów.
Firma | Model | Podatność |
Open AI | ChatGPT 4o-mini | Tak |
Open AI | ChatGPT 4o | Tak |
Open AI | ChatGPT 4.5 Preview | Tak |
Open AI | ChatGPT 4.1 | Tak |
Open AI | ChatGPT o1 | Tak (z niewielkimi poprawkami) |
Open AI | ChatGPT o3-mini | Tak (z niewielkimi poprawkami) |
Anthropic | Claude 3.5 Sonnet | Tak |
Anthropic | Claude 3.7 Sonnet | Tak |
Gemini 1.5 Flash | Tak | |
Gemini 2.0 Flash | Tak | |
Gemini 2.5 Pro Preview | Tak (z niewielkimi poprawkami) | |
Microsoft | Copilot | Tak |
Meta | Llama 3.1 70B Instruct Turbo | Tak |
Meta | Llama 3.1 405B Instruct Turbo | Tak |
Meta | Llama 3.3 70B Instruct Turbo | Tak |
Meta | Llama 4 Scout 17B 16E Instruct | Tak |
Meta | Llama 4 Maverick 17B 128E Instruct FP8 | Tak |
DeepSeek | DeepSeek V3 | Tak |
DeepSeek | DeepSeek E1 | Tak |
Qwen | Qwen2.5 72B | Tak |
Mistral AI | Mixtral 8x22B | Tak |
Powiązane publikacje

Samsung Wallet pozwoli na wysyłanie pieniędzy przez NFC... choć nie w Polsce. Warunek? Smartfon z rodziny Galaxy
11
Model Recraft jest lepszy w generowaniu obrazów niż DALL-E i Midjourney. Dzięki temu zdobył spore dofinansowanie
15
To nie audiobook. Piotr Fronczewski jako lektor AI? Sprawdź, co potrafi nowa aplikacja ElevenReader firmy ElevenLabs
35
Google Labs wprowadza eksperymentalne narzędzia AI do nauki języków obcych z wykorzystaniem modelu Gemini
5