Hakerzy nie włamują się już do AI, oni go po prostu przekonują. Oto jak działa Sugar-Coated Poison
Rywalizacja między możliwościami modeli AI a ich bezpieczeństwem nigdy nie była tak wyraźna. F5 Labs co miesiąc publikuje ranking CASI, oceniający odporność czołowych modeli językowych na rzeczywiste ataki przy użyciu 10 000 nowych promptów. Marcowa edycja przynosi niepokojące przesunięcia i jedną nazwę, która dominuje w złym kontekście. Jednocześnie nowe techniki ataku pokazują, że era prymitywnych jailbreaków właśnie dobiega końca.
Wyścig pomiędzy możliwościami a bezpieczeństwem modeli sztucznej inteligencji gwałtownie przyspiesza, a najtańsze alternatywy płacą za popularność obniżonym poziomem ochrony.
Koniec z prowizorką. Rząd przyjął strategię, która ma zmienić polskie cyberbezpieczeństwo do 2029 roku
Ranking CASI, który bazuje na 10 000 promptów atakujących miesięcznie, zdominowały tym razem OpenAI i Anthropic. GPT-5.2 notuje 92,58 punktu, Claude Opus 4.6 aż 96,61. GLM-5 firmy Z.ai wypada tu fatalnie, gdyż uzyskał zaledwie 37,56 punktu, choć w testach wydajności zajmuje drugie miejsce (49.,8 vs 53 dla Opus). Model kusi ceną. Najtańszy plan kosztuje 55 proc. ceny Claude Pro przy trzykrotnie większym limicie użycia. Przepaść w bezpieczeństwie to jednak realne ryzyko, a nie jedynie statystyka.
Luka w Gemini Live pozwalała rozszerzeniom Chrome na eskalację uprawnień i dostęp do kamery, mikrofonu i lokalnych plików
Objęta w tym miesiącu oceną CASI technika Sugar-Coated Poison (SCP) porzuca prymitywne jailbreaki na rzecz stopniowej erozji zabezpieczeń przez wieloetapową rozmowę z modelem. Skuteczność tego rozwiązania sięgała aż 87 proc. przeciwko starszym modelom (GPT-4, Claude Sonnet 3.5), choć nowsze modele radzą sobie wyraźnie lepiej. Podobny wzorzec opisywaliśmy przy okazji techniki Policy Puppetry, gdzie manipulacja semantyczna pokonuje dostępne filtry niezależnie od architektury modelu AI.
LLM-y deanonimizują użytkowników Reddita i Hacker News z precyzją 90 procent i kosztem do 4 dolarów za profil
Trzy nowe CVE (ang. Common Vulnerabilities and Exposures - Powszechne Podatności i Ekspozycje), czyli RoguePilot w GitHub Copilot Extensions, CVE-2026-25253 we frameworku OpenClaw i CVE-2026-21852 w Claude Code CLI, potwierdzają trend, że atakujący przenieśli się z samych modeli na ekosystemy tworzone wokół nich. Dla przedsiębiorstw oznacza to zmianę strategiczną. Chodzi o to, że wybór bezpiecznego modelu AI przestaje wystarczyć, gdy otaczające go narzędzia i agenty AI są podatni na klasyczne exploity.
Powiązane publikacje

Miało być zamknięcie zgłoszenia, wyszedł poradnik ataku. Miliony użytkowników Chromium zostały z otwartą furtką
12
Nowe obejście BitLockera w Windows 11 i Windows Server 2022/2025. Wystarczy fizyczny dostęp oraz nośnik USB
59
Zwolnili ich i wkrótce zaczęły znikać rządowe bazy danych. Ta historia brzmi jak scenariusz thrillera, ale wydarzyła się naprawdę
22
Druga poważna luka w jądrze Linux w dwa tygodnie. Dirty Frag rozszerza klasę błędów znaną z Dirty Pipe i Copy Fail
31







![Hakerzy nie włamują się już do AI, oni go po prostu przekonują. Oto jak działa Sugar-Coated Poison [1]](/image/news/2026/03/11_hakerzy_nie_wlamuja_sie_juz_do_ai_oni_go_po_prostu_przekonuja_oto_jak_dziala_sugar_coated_poison_2.jpg)
![Hakerzy nie włamują się już do AI, oni go po prostu przekonują. Oto jak działa Sugar-Coated Poison [2]](/image/news/2026/03/11_hakerzy_nie_wlamuja_sie_juz_do_ai_oni_go_po_prostu_przekonuja_oto_jak_dziala_sugar_coated_poison_0.jpg)
![Hakerzy nie włamują się już do AI, oni go po prostu przekonują. Oto jak działa Sugar-Coated Poison [3]](/image/news/2026/03/11_hakerzy_nie_wlamuja_sie_juz_do_ai_oni_go_po_prostu_przekonuja_oto_jak_dziala_sugar_coated_poison_1.jpg)





