Zgłoś błąd
X
Zanim wyślesz zgłoszenie, upewnij się że przyczyną problemów nie jest dodatek blokujący reklamy.
Błędy w spisie treści artykułu zgłaszaj jako "błąd w TREŚCI".
Typ zgłoszenia
Treść zgłoszenia
Twój email (opcjonalnie)
Nie wypełniaj tego pola
Załóż konto
EnglishDeutschукраїнськийFrançaisEspañol中国

Programiści blokują ruch z całych krajów z powodu nadmiernej aktywności crawlerów systemów AI

Maciej Lewczuk | 27-03-2025 13:00 |

Programiści blokują ruch z całych krajów z powodu nadmiernej aktywności crawlerów systemów AINadmierna aktywność botów AI indeksujących treści na stronach open source prowadzi do poważnych problemów z wydajnością serwerów i do zwiększonych kosztów. Deweloperzy sięgają zatem po radykalne środki, takie jak blokowanie ruchu z całych krajów i konkretnych dostawców usług chmurowych. Jakie są przyczyny tego zjawiska i jakie kroki podejmują administratorzy, aby chronić swoje zasoby przed niepożądanym ruchem generowanym przez crawlery AI?

Boty AI głodne danych przejmują ruch na stronach open source, zmuszając do blokowania całych krajów – informuje Ars Technica.

Programiści blokują ruch z całych krajów z powodu nadmiernej aktywności crawlerów systemów AI [1]

OpenAI wkracza w erę agentów AI. Sztuczna inteligencja zrobi, o co prosisz... o ile jej zapłacisz. Operator już dostępny w USA

W ostatnich miesiącach deweloperzy oprogramowania open source obserwują gwałtowny wzrost ruchu pochodzącego od botów indeksujących, wykorzystywanych przez firmy rozwijające sztuczną inteligencję. Crawlery tego typu skanują tysiące stron w poszukiwaniu materiałów treningowych dla modeli językowych i systemów AI. W praktyce oznacza to ogromne obciążenie infrastruktury serwerowej, podwyższone rachunki za transfer danych i trudności z analizą prawdziwego ruchu generowanego przez ludzi. W efekcie coraz więcej twórców decyduje się na radykalne działania. Jednym z najgłośniejszych przypadków jest SourceHut, platforma hostująca kod open source, która zdecydowała się zablokować dostęp dla wielu dostawców usług chmurowych, w tym Google Cloud Platform, Microsoft Azure, a także dla Hetzner. Jak tłumaczy założyciel serwisu, Drew DeVault, zablokowane sieci odpowiadały za nadmierny i nieautoryzowany ruch, który znacząco wpływał na wydajność systemu. W jego opinii AI crawlery przeszukują treści bez zgody autorów i bez poszanowania dla zasad fair use. Stawia to pod znakiem zapytania etykę działania firm rozwijających modele AI.

Programiści blokują ruch z całych krajów z powodu nadmiernej aktywności crawlerów systemów AI [2]

Sztuczna inteligencja uczy się korzystać z komputera. Anthropic zwiększa możliwości modelu Claude 3.5 Sonnet

Choć pliki robots.txt pozostają standardowym narzędziem do zarządzania aktywnością botów, coraz częściej okazują się nieskuteczne. Część crawlerów po prostu je ignoruje. Dodatkowo wiele firm AI nie informuje transparentnie o swojej obecności i celach działania botów. To prowadzi do narastającego napięcia między społecznością open source a firmami komercyjnymi. Na problem zareagowała także firma Cloudflare, która ogłosiła nową inicjatywę o nazwie AI Labyrinth. Mechanizm ten polega na kierowaniu podejrzanych botów na zapętlone, fałszywe podstrony, które mają wyczerpać zasoby indeksujące crawlery i powstrzymać je przed dalszym działaniem. To przykład rosnącej determinacji w walce z nieautoryzowanym pozyskiwaniem danych. Temat budzi również szersze pytania o prawa autorskie i zakres dopuszczalnego użytku danych publicznych. Deweloperzy wskazują, że publikacja kodu czy też dokumentacji open source nie oznacza automatycznej zgody na jego wykorzystanie do trenowania komercyjnych modeli AI. Brakuje wyraźnych regulacji prawnych. To sprawia, że inicjatywy takie jak blokowanie krajów czy providerów mogą stać się jedynym skutecznym środkiem obrony.

Źródło: Ars Technica
Bądź na bieżąco - obserwuj PurePC.pl na Google News
Zgłoś błąd
Liczba komentarzy: 22

Komentarze:

x Wydawca serwisu PurePC.pl informuje, że na swoich stronach www stosuje pliki cookies (tzw. ciasteczka). Kliknij zgadzam się, aby ta informacja nie pojawiała się więcej. Kliknij polityka cookies, aby dowiedzieć się więcej, w tym jak zarządzać plikami cookies za pośrednictwem swojej przeglądarki.