Automatyczne boty AI przeciążają serwery Wikimedia. Wzrost wykorzystania pasma o połowę zagraża stabilności projektów
Wikimedia Foundation, organizacja zarządzająca Wikipedią i pokrewnymi projektami, alarmuje o znaczącym wzroście ruchu generowanego przez boty AI, które masowo pobierają treści multimedialne w celu trenowania modeli sztucznej inteligencji. To zjawisko prowadzi do przeciążenia infrastruktury, a także znacznego zwiększenia kosztów operacyjnych, stawiając pod znakiem zapytania stabilność, jak również dostępność zasobów dla użytkowników.
Od stycznia 2024 roku zaobserwowaliśmy wzrost wykorzystania pasma do pobierania treści multimedialnych o 50%. Ten wzrost pochodzi głównie od zautomatyzowanych programów. – Wikimedia Foundation
Programiści blokują ruch z całych krajów z powodu nadmiernej aktywności crawlerów systemów AI
Wikimedia Foundation, organizacja non-profit zarządzająca Wikipedią oraz innymi projektami opartymi na współtworzeniu treści, zmaga się z nowym wyzwaniem. Od początku 2024 roku odnotowano 50-procentowy wzrost wykorzystania pasma do pobierania treści multimedialnych. Źródłem tego wzrostu są głównie zautomatyzowane boty, które masowo pobierają obrazy z Wikimedia Commons w celu trenowania modeli sztucznej inteligencji. Analiza przeprowadzona przez Wikimedia Foundation wykazała, że co najmniej 65% ruchu generowanego przez najbardziej obciążające zasoby treści pochodzi od botów, mimo że stanowią one około 35% całkowitej liczby odsłon stron. Boty te często odwiedzają mniej popularne artykuły, co zmusza serwery do częstszego sięgania po dane z głównego centrum danych, zwiększając obciążenie infrastruktury. Wzmożony ruch botów AI nie tylko obciąża serwery, ale również prowadzi do wzrostu kosztów operacyjnych.
Cloudflare wprowadza darmowe narzędzie, które blokuje boty wyszukujące w Internecie treści do treningu AI
Infrastruktura Wikimedia jest zaprojektowana tak, aby radzić sobie z nagłymi wzrostami ruchu spowodowanymi przez użytkowników podczas ważnych wydarzeń. Jednak obecny poziom ruchu generowanego przez boty jest bezprecedensowy i stanowi rosnące ryzyko dla stabilności, a także dostępności usług. Fundacja aktywnie monitoruje sytuację i podejmuje działania mające na celu ograniczenie wpływu botów na infrastrukturę. Zespół ds. niezawodności witryny poświęca znaczną ilość czasu i zasobów na blokowanie niepożądanych crawlerów, aby zapobiec zakłóceniom dla regularnych użytkowników. Niemniej problem pozostaje poważnym wyzwaniem, które wymaga dalszych działań i współpracy z twórcami botów, a także społecznością AI. Zjawisko masowego pobierania danych przez boty AI nie jest unikalne dla Wikimedia. Wiele organizacji i serwisów internetowych doświadcza podobnych problemów, gdy ich zasoby są wykorzystywane do trenowania modeli sztucznej inteligencji bez odpowiednich uzgodnień czy też rekompensat. To rodzi pytania o etykę, a także o odpowiedzialność w zakresie wykorzystywania publicznie dostępnych danych, jak również o potrzebę ustanowienia nowych standardów i regulacji w tej dziedzinie.
Powiązane publikacje

China Mobile osiąga 280 Gbps w testach 6G. Pobieranie 50 GB pliku trwa zaledwie 1,4 sekundy. Wszystko dzięki satelicie
53
Qualcomm pracuje nad Wi-Fi 8. Nowy standard zrewolucjonizuje sposób łączenia się z Internetem w domu i biurze
27
Jaki Linux do gier? Który układ graficzny? Nowe statystyki ze Steam ukazują, jak wygląda granie w świecie Open Source (częściowo)
101
Cloudflare uruchamia system Pay Per Crawl dla monetyzacji botów AI szukających danych treningowych
9