Programiści blokują ruch z całych krajów z powodu nadmiernej aktywności crawlerów systemów AI
Nadmierna aktywność botów AI indeksujących treści na stronach open source prowadzi do poważnych problemów z wydajnością serwerów i do zwiększonych kosztów. Deweloperzy sięgają zatem po radykalne środki, takie jak blokowanie ruchu z całych krajów i konkretnych dostawców usług chmurowych. Jakie są przyczyny tego zjawiska i jakie kroki podejmują administratorzy, aby chronić swoje zasoby przed niepożądanym ruchem generowanym przez crawlery AI?
Boty AI głodne danych przejmują ruch na stronach open source, zmuszając do blokowania całych krajów – informuje Ars Technica.
OpenAI wkracza w erę agentów AI. Sztuczna inteligencja zrobi, o co prosisz... o ile jej zapłacisz. Operator już dostępny w USA
W ostatnich miesiącach deweloperzy oprogramowania open source obserwują gwałtowny wzrost ruchu pochodzącego od botów indeksujących, wykorzystywanych przez firmy rozwijające sztuczną inteligencję. Crawlery tego typu skanują tysiące stron w poszukiwaniu materiałów treningowych dla modeli językowych i systemów AI. W praktyce oznacza to ogromne obciążenie infrastruktury serwerowej, podwyższone rachunki za transfer danych i trudności z analizą prawdziwego ruchu generowanego przez ludzi. W efekcie coraz więcej twórców decyduje się na radykalne działania. Jednym z najgłośniejszych przypadków jest SourceHut, platforma hostująca kod open source, która zdecydowała się zablokować dostęp dla wielu dostawców usług chmurowych, w tym Google Cloud Platform, Microsoft Azure, a także dla Hetzner. Jak tłumaczy założyciel serwisu, Drew DeVault, zablokowane sieci odpowiadały za nadmierny i nieautoryzowany ruch, który znacząco wpływał na wydajność systemu. W jego opinii AI crawlery przeszukują treści bez zgody autorów i bez poszanowania dla zasad fair use. Stawia to pod znakiem zapytania etykę działania firm rozwijających modele AI.
Sztuczna inteligencja uczy się korzystać z komputera. Anthropic zwiększa możliwości modelu Claude 3.5 Sonnet
Choć pliki robots.txt pozostają standardowym narzędziem do zarządzania aktywnością botów, coraz częściej okazują się nieskuteczne. Część crawlerów po prostu je ignoruje. Dodatkowo wiele firm AI nie informuje transparentnie o swojej obecności i celach działania botów. To prowadzi do narastającego napięcia między społecznością open source a firmami komercyjnymi. Na problem zareagowała także firma Cloudflare, która ogłosiła nową inicjatywę o nazwie AI Labyrinth. Mechanizm ten polega na kierowaniu podejrzanych botów na zapętlone, fałszywe podstrony, które mają wyczerpać zasoby indeksujące crawlery i powstrzymać je przed dalszym działaniem. To przykład rosnącej determinacji w walce z nieautoryzowanym pozyskiwaniem danych. Temat budzi również szersze pytania o prawa autorskie i zakres dopuszczalnego użytku danych publicznych. Deweloperzy wskazują, że publikacja kodu czy też dokumentacji open source nie oznacza automatycznej zgody na jego wykorzystanie do trenowania komercyjnych modeli AI. Brakuje wyraźnych regulacji prawnych. To sprawia, że inicjatywy takie jak blokowanie krajów czy providerów mogą stać się jedynym skutecznym środkiem obrony.
Powiązane publikacje

Tajwan ogranicza eksport technologii TSMC. Nowe regulacje mają chronić najważniejsze procesy przed zagraniczną konkurencją
28
Wielka Brytania planuje zakazać aplikacji AI tworzących deepfake dzieci. Ofcom i rząd UK podejmują stosowne działania
36
IBM zainwestuje 150 mld USD w USA, a konkretniej w rozwój AI, komputerów kwantowych, a także produkcji lokalnej
14
Prawnicy MyPillow użyli AI i wpadli w pułapkę fikcyjnych spraw. Grożą im naprawdę poważne konsekwencje
72