Programiści blokują ruch z całych krajów z powodu nadmiernej aktywności crawlerów systemów AI
Nadmierna aktywność botów AI indeksujących treści na stronach open source prowadzi do poważnych problemów z wydajnością serwerów i do zwiększonych kosztów. Deweloperzy sięgają zatem po radykalne środki, takie jak blokowanie ruchu z całych krajów i konkretnych dostawców usług chmurowych. Jakie są przyczyny tego zjawiska i jakie kroki podejmują administratorzy, aby chronić swoje zasoby przed niepożądanym ruchem generowanym przez crawlery AI?
Boty AI głodne danych przejmują ruch na stronach open source, zmuszając do blokowania całych krajów – informuje Ars Technica.
OpenAI wkracza w erę agentów AI. Sztuczna inteligencja zrobi, o co prosisz... o ile jej zapłacisz. Operator już dostępny w USA
W ostatnich miesiącach deweloperzy oprogramowania open source obserwują gwałtowny wzrost ruchu pochodzącego od botów indeksujących, wykorzystywanych przez firmy rozwijające sztuczną inteligencję. Crawlery tego typu skanują tysiące stron w poszukiwaniu materiałów treningowych dla modeli językowych i systemów AI. W praktyce oznacza to ogromne obciążenie infrastruktury serwerowej, podwyższone rachunki za transfer danych i trudności z analizą prawdziwego ruchu generowanego przez ludzi. W efekcie coraz więcej twórców decyduje się na radykalne działania. Jednym z najgłośniejszych przypadków jest SourceHut, platforma hostująca kod open source, która zdecydowała się zablokować dostęp dla wielu dostawców usług chmurowych, w tym Google Cloud Platform, Microsoft Azure, a także dla Hetzner. Jak tłumaczy założyciel serwisu, Drew DeVault, zablokowane sieci odpowiadały za nadmierny i nieautoryzowany ruch, który znacząco wpływał na wydajność systemu. W jego opinii AI crawlery przeszukują treści bez zgody autorów i bez poszanowania dla zasad fair use. Stawia to pod znakiem zapytania etykę działania firm rozwijających modele AI.
Sztuczna inteligencja uczy się korzystać z komputera. Anthropic zwiększa możliwości modelu Claude 3.5 Sonnet
Choć pliki robots.txt pozostają standardowym narzędziem do zarządzania aktywnością botów, coraz częściej okazują się nieskuteczne. Część crawlerów po prostu je ignoruje. Dodatkowo wiele firm AI nie informuje transparentnie o swojej obecności i celach działania botów. To prowadzi do narastającego napięcia między społecznością open source a firmami komercyjnymi. Na problem zareagowała także firma Cloudflare, która ogłosiła nową inicjatywę o nazwie AI Labyrinth. Mechanizm ten polega na kierowaniu podejrzanych botów na zapętlone, fałszywe podstrony, które mają wyczerpać zasoby indeksujące crawlery i powstrzymać je przed dalszym działaniem. To przykład rosnącej determinacji w walce z nieautoryzowanym pozyskiwaniem danych. Temat budzi również szersze pytania o prawa autorskie i zakres dopuszczalnego użytku danych publicznych. Deweloperzy wskazują, że publikacja kodu czy też dokumentacji open source nie oznacza automatycznej zgody na jego wykorzystanie do trenowania komercyjnych modeli AI. Brakuje wyraźnych regulacji prawnych. To sprawia, że inicjatywy takie jak blokowanie krajów czy providerów mogą stać się jedynym skutecznym środkiem obrony.
Powiązane publikacje

ASML, Airbus i Mistral AI bezskutecznie proszą o wstrzymanie przepisów unijnych dotyczących sztucznej inteligencji
43
Chińscy producenci GPU planują IPO za miliardy dolarów, a NVIDIA traci udział w rynku z 95% do 50%
46
Pracownicy Xbox w szoku. Firma promuje AI tego samego dnia co masowe zwolnienia. Deweloperzy nie wytrzymują
41
Francuski sąd skazał trzech byłych szefów Ubisoft za molestowanie i mobbing w miejscu pracy
59