Automatyczne boty AI przeciążają serwery Wikimedia. Wzrost wykorzystania pasma o połowę zagraża stabilności projektów
Wikimedia Foundation, organizacja zarządzająca Wikipedią i pokrewnymi projektami, alarmuje o znaczącym wzroście ruchu generowanego przez boty AI, które masowo pobierają treści multimedialne w celu trenowania modeli sztucznej inteligencji. To zjawisko prowadzi do przeciążenia infrastruktury, a także znacznego zwiększenia kosztów operacyjnych, stawiając pod znakiem zapytania stabilność, jak również dostępność zasobów dla użytkowników.
Od stycznia 2024 roku zaobserwowaliśmy wzrost wykorzystania pasma do pobierania treści multimedialnych o 50%. Ten wzrost pochodzi głównie od zautomatyzowanych programów. – Wikimedia Foundation
Programiści blokują ruch z całych krajów z powodu nadmiernej aktywności crawlerów systemów AI
Wikimedia Foundation, organizacja non-profit zarządzająca Wikipedią oraz innymi projektami opartymi na współtworzeniu treści, zmaga się z nowym wyzwaniem. Od początku 2024 roku odnotowano 50-procentowy wzrost wykorzystania pasma do pobierania treści multimedialnych. Źródłem tego wzrostu są głównie zautomatyzowane boty, które masowo pobierają obrazy z Wikimedia Commons w celu trenowania modeli sztucznej inteligencji. Analiza przeprowadzona przez Wikimedia Foundation wykazała, że co najmniej 65% ruchu generowanego przez najbardziej obciążające zasoby treści pochodzi od botów, mimo że stanowią one około 35% całkowitej liczby odsłon stron. Boty te często odwiedzają mniej popularne artykuły, co zmusza serwery do częstszego sięgania po dane z głównego centrum danych, zwiększając obciążenie infrastruktury. Wzmożony ruch botów AI nie tylko obciąża serwery, ale również prowadzi do wzrostu kosztów operacyjnych.
Cloudflare wprowadza darmowe narzędzie, które blokuje boty wyszukujące w Internecie treści do treningu AI
Infrastruktura Wikimedia jest zaprojektowana tak, aby radzić sobie z nagłymi wzrostami ruchu spowodowanymi przez użytkowników podczas ważnych wydarzeń. Jednak obecny poziom ruchu generowanego przez boty jest bezprecedensowy i stanowi rosnące ryzyko dla stabilności, a także dostępności usług. Fundacja aktywnie monitoruje sytuację i podejmuje działania mające na celu ograniczenie wpływu botów na infrastrukturę. Zespół ds. niezawodności witryny poświęca znaczną ilość czasu i zasobów na blokowanie niepożądanych crawlerów, aby zapobiec zakłóceniom dla regularnych użytkowników. Niemniej problem pozostaje poważnym wyzwaniem, które wymaga dalszych działań i współpracy z twórcami botów, a także społecznością AI. Zjawisko masowego pobierania danych przez boty AI nie jest unikalne dla Wikimedia. Wiele organizacji i serwisów internetowych doświadcza podobnych problemów, gdy ich zasoby są wykorzystywane do trenowania modeli sztucznej inteligencji bez odpowiednich uzgodnień czy też rekompensat. To rodzi pytania o etykę, a także o odpowiedzialność w zakresie wykorzystywania publicznie dostępnych danych, jak również o potrzebę ustanowienia nowych standardów i regulacji w tej dziedzinie.
Powiązane publikacje

Wikimedia Foundation reaguje na krytykę. Generowane podsumowania AI wstrzymane po dwóch tygodniach testów
17
Zdjęcia na Instagramie nie tylko w dwóch formatach. Popularna platforma oferuje już wsparcie dla mobilnych proporcji
6
Meta kontra FTC. Kevin Systrom ujawnia, że Mark Zuckerberg postrzegał Instagram jako zagrożenie dla Facebooka
23
OpenAI rozważa zakup przeglądarki Chrome od Google, co oznacza potencjalną rewolucję w dostępie do sztucznej inteligencji
22