Programiści blokują ruch z całych krajów z powodu nadmiernej aktywności crawlerów systemów AI
Nadmierna aktywność botów AI indeksujących treści na stronach open source prowadzi do poważnych problemów z wydajnością serwerów i do zwiększonych kosztów. Deweloperzy sięgają zatem po radykalne środki, takie jak blokowanie ruchu z całych krajów i konkretnych dostawców usług chmurowych. Jakie są przyczyny tego zjawiska i jakie kroki podejmują administratorzy, aby chronić swoje zasoby przed niepożądanym ruchem generowanym przez crawlery AI?
Boty AI głodne danych przejmują ruch na stronach open source, zmuszając do blokowania całych krajów – informuje Ars Technica.
OpenAI wkracza w erę agentów AI. Sztuczna inteligencja zrobi, o co prosisz... o ile jej zapłacisz. Operator już dostępny w USA
W ostatnich miesiącach deweloperzy oprogramowania open source obserwują gwałtowny wzrost ruchu pochodzącego od botów indeksujących, wykorzystywanych przez firmy rozwijające sztuczną inteligencję. Crawlery tego typu skanują tysiące stron w poszukiwaniu materiałów treningowych dla modeli językowych i systemów AI. W praktyce oznacza to ogromne obciążenie infrastruktury serwerowej, podwyższone rachunki za transfer danych i trudności z analizą prawdziwego ruchu generowanego przez ludzi. W efekcie coraz więcej twórców decyduje się na radykalne działania. Jednym z najgłośniejszych przypadków jest SourceHut, platforma hostująca kod open source, która zdecydowała się zablokować dostęp dla wielu dostawców usług chmurowych, w tym Google Cloud Platform, Microsoft Azure, a także dla Hetzner. Jak tłumaczy założyciel serwisu, Drew DeVault, zablokowane sieci odpowiadały za nadmierny i nieautoryzowany ruch, który znacząco wpływał na wydajność systemu. W jego opinii AI crawlery przeszukują treści bez zgody autorów i bez poszanowania dla zasad fair use. Stawia to pod znakiem zapytania etykę działania firm rozwijających modele AI.
Sztuczna inteligencja uczy się korzystać z komputera. Anthropic zwiększa możliwości modelu Claude 3.5 Sonnet
Choć pliki robots.txt pozostają standardowym narzędziem do zarządzania aktywnością botów, coraz częściej okazują się nieskuteczne. Część crawlerów po prostu je ignoruje. Dodatkowo wiele firm AI nie informuje transparentnie o swojej obecności i celach działania botów. To prowadzi do narastającego napięcia między społecznością open source a firmami komercyjnymi. Na problem zareagowała także firma Cloudflare, która ogłosiła nową inicjatywę o nazwie AI Labyrinth. Mechanizm ten polega na kierowaniu podejrzanych botów na zapętlone, fałszywe podstrony, które mają wyczerpać zasoby indeksujące crawlery i powstrzymać je przed dalszym działaniem. To przykład rosnącej determinacji w walce z nieautoryzowanym pozyskiwaniem danych. Temat budzi również szersze pytania o prawa autorskie i zakres dopuszczalnego użytku danych publicznych. Deweloperzy wskazują, że publikacja kodu czy też dokumentacji open source nie oznacza automatycznej zgody na jego wykorzystanie do trenowania komercyjnych modeli AI. Brakuje wyraźnych regulacji prawnych. To sprawia, że inicjatywy takie jak blokowanie krajów czy providerów mogą stać się jedynym skutecznym środkiem obrony.
Powiązane publikacje

Europejski Chips Act wkracza w fazę realizacji. Cztery fabryki ze statusem IPF i OEF. Aż 43 miliardy euro w grze o niezależność
26
Fujitsu MONAKA ze 144 rdzeniami ARM + GPU NVIDIA = monster AI. Japonia szykuje broń na wojnę technologiczną z USA i Chinami
7
Holandia przejmuje chińskiego producenta półprzewodników, Nexperię. To może być początek większej wojny technologicznej
17
Chiny zakręcają kurek z najważniejszymi surowcami, czyli metalami ziem rzadkich. Czy TSMC i fabryki w USA zatrzymają produkcję?
78