Zgłoś błąd
X
Zanim wyślesz zgłoszenie, upewnij się że przyczyną problemów nie jest dodatek blokujący reklamy.
Błędy w spisie treści artykułu zgłaszaj jako "błąd w TREŚCI".
Typ zgłoszenia
Treść zgłoszenia
Twój email (opcjonalnie)
Nie wypełniaj tego pola
Załóż konto
EnglishDeutschукраїнськийFrançaisEspañol中国

Wystarczy 250 dokumentów aby zhakować każdy model AI. Data poisoning zmienia zachowanie LLM

Wystarczy 250 dokumentów aby zhakować każdy model AI. Data poisoning zmienia zachowanie LLMWspółczesne modele językowe, takie jak te stosowane w popularnych chatbotach, uczą się na podstawie gigantycznych zbiorów danych. Ich jakość i wiarygodność ma istotne znaczenie dla zachowania AI. Twórcy tych systemów stosują zaawansowane filtry i techniki bezpieczeństwa, aby zapewnić, że AI będzie działać w sposób przewidywalny i pomocny. Najnowsze badania pokazują, że nawet te zabezpieczenia można obejść w zaskakująco prosty, a jednocześnie bardzo podstępny sposób.

Sztuczna inteligencja może nauczyć się ukrywać złośliwe zachowanie, którego nie da się usunąć za pomocą standardowych technik bezpieczeństwa.

Wystarczy 250 dokumentów aby zhakować każdy model AI. Data poisoning zmienia zachowanie LLM [1]

Twoja gamingowa myszka może Cię podsłuchiwać. Sensory PixArt PAW3395 i PAW3399 zagrażają prywatności użytkowników

Międzynarodowy zespół badawczy składający się z ekspertów z Anthropic, UK AI Security Institute i Alan Turing Institute przeprowadził najszersze jak dotąd badanie nad atakami typu data poisoning na duże modele językowe. Wyniki eksperymentów obalają dotychczasowe założenia o bezpieczeństwie systemów AI i pokazują niepokojącą prawdę o ich podatności na manipulację. Najważniejszym odkryciem badania jest fakt, że do skutecznego wprowadzenia backdoorów w modelach językowych wystarczy zaledwie 250 złośliwych dokumentów, niezależnie od rozmiaru systemu. Naukowcy przetestowali cztery różne modele o parametrach od 600 mln do 13 mld, trenując każdy z nich na optymalnej ilości danych według zasad Chinchilla. Pomimo że największe modele przetwarzały ponad 20 razy więcej czystych danych treningowych niż najmniejsze, wszystkie okazały się równie podatne na ataki przy użyciu tej samej liczby szkodliwych próbek.

Wystarczy 250 dokumentów aby zhakować każdy model AI. Data poisoning zmienia zachowanie LLM [2]

Microsoft potwierdza wykorzystanie zero-day CVE-2025-10035 w GoAnywhere MFT przez hakerów z max oceną zagrożenia 10.0

W eksperymentach badacze używali specjalnego wyzwalacza "", po którym modele zaczynały generować losowy tekst przypominający bełkot. Choć zastosowany atak był stosunkowo prosty, jego skuteczność była zatrważające. Modele osiągały ponad 80 proc. sukcesu ataku przy zaledwie 50-90 złośliwych przykładach w przypadku GPT-3.5-turbo. Wyniki te kontrastują z wcześniejszymi badaniami, które zakładały, że atakujący muszą kontrolować określony procent danych treningowych, co przy obecnych rozmiarach zbiorów danych wymagałoby wielu milionów szkodliwych dokumentów.

Wystarczy 250 dokumentów aby zhakować każdy model AI. Data poisoning zmienia zachowanie LLM [3]

Wystarczy 250 dokumentów aby zhakować każdy model AI. Data poisoning zmienia zachowanie LLM [4]

Wystarczy 250 dokumentów aby zhakować każdy model AI. Data poisoning zmienia zachowanie LLM [5]

Bielik.AI uruchamia Sójkę. Jest to pierwszy polski model AI do moderacji treści online w czasie rzeczywistym

Odkrycia te mają szczególne znaczenie w kontekście wcześniejszych doniesień o problemach bezpieczeństwa w technologiach AI. Podobnie jak w przypadku niedawnych raportów o potencjalnych backdoorach w chipach NVIDIA H20 dla chińskiego rynku, obecne badania pokazują, że wyzwania bezpieczeństwa AI wykraczają poza sprzęt i dotyczą fundamentalnych procesów trenowania. Badanie Anthropic wskazuje, że firmy technologiczne muszą przewartościować swoje podejście do zabezpieczeń, skupiając się nie tylko na procentowym zanieczyszczeniu danych, ale również na wykrywaniu małych, stałych ilości złośliwych próbek.

Wystarczy 250 dokumentów aby zhakować każdy model AI. Data poisoning zmienia zachowanie LLM [6]

Wystarczy 250 dokumentów aby zhakować każdy model AI. Data poisoning zmienia zachowanie LLM [7]

Wystarczy 250 dokumentów aby zhakować każdy model AI. Data poisoning zmienia zachowanie LLM [8]

Kontrowersyjne zasady użytkowania Anthropic. Administracja USA krytykuje restrykcje AI w operacjach służb bezpieczeństwa

Pomimo alarmujących ustaleń, badacze podkreślają ważne ograniczenia swojej pracy. Testy obejmowały tylko modele do 13 mld parametrów, podczas gdy komercyjne systemy jak GPT-4 czy Claude zawierają setki miliardów parametrów. Dodatkowo, zastosowane backdoory można znacznie osłabić poprzez standardowe trenowanie bezpieczeństwa. Już 50-100 "dobrych" przykładów znacznie zmniejszało skuteczność ataku, a 2000 przykładów praktycznie go eliminowało. Największym problemem dla hakerów jest to, jak faktycznie dostać swoje złośliwe dokumenty do zbiorów danych, na których trenują duże firmy AI.

Źródło: Anthropic, Ars Technica, Arxiv
Bądź na bieżąco - obserwuj PurePC.pl na Google News
Zgłoś błąd
Liczba komentarzy: 23

Komentarze:

x Wydawca serwisu PurePC.pl informuje, że na swoich stronach www stosuje pliki cookies (tzw. ciasteczka). Kliknij zgadzam się, aby ta informacja nie pojawiała się więcej. Kliknij polityka cookies, aby dowiedzieć się więcej, w tym jak zarządzać plikami cookies za pośrednictwem swojej przeglądarki.