Automatyczne boty AI przeciążają serwery Wikimedia. Wzrost wykorzystania pasma o połowę zagraża stabilności projektów
Wikimedia Foundation, organizacja zarządzająca Wikipedią i pokrewnymi projektami, alarmuje o znaczącym wzroście ruchu generowanego przez boty AI, które masowo pobierają treści multimedialne w celu trenowania modeli sztucznej inteligencji. To zjawisko prowadzi do przeciążenia infrastruktury, a także znacznego zwiększenia kosztów operacyjnych, stawiając pod znakiem zapytania stabilność, jak również dostępność zasobów dla użytkowników.
Od stycznia 2024 roku zaobserwowaliśmy wzrost wykorzystania pasma do pobierania treści multimedialnych o 50%. Ten wzrost pochodzi głównie od zautomatyzowanych programów. – Wikimedia Foundation
Programiści blokują ruch z całych krajów z powodu nadmiernej aktywności crawlerów systemów AI
Wikimedia Foundation, organizacja non-profit zarządzająca Wikipedią oraz innymi projektami opartymi na współtworzeniu treści, zmaga się z nowym wyzwaniem. Od początku 2024 roku odnotowano 50-procentowy wzrost wykorzystania pasma do pobierania treści multimedialnych. Źródłem tego wzrostu są głównie zautomatyzowane boty, które masowo pobierają obrazy z Wikimedia Commons w celu trenowania modeli sztucznej inteligencji. Analiza przeprowadzona przez Wikimedia Foundation wykazała, że co najmniej 65% ruchu generowanego przez najbardziej obciążające zasoby treści pochodzi od botów, mimo że stanowią one około 35% całkowitej liczby odsłon stron. Boty te często odwiedzają mniej popularne artykuły, co zmusza serwery do częstszego sięgania po dane z głównego centrum danych, zwiększając obciążenie infrastruktury. Wzmożony ruch botów AI nie tylko obciąża serwery, ale również prowadzi do wzrostu kosztów operacyjnych.
Cloudflare wprowadza darmowe narzędzie, które blokuje boty wyszukujące w Internecie treści do treningu AI
Infrastruktura Wikimedia jest zaprojektowana tak, aby radzić sobie z nagłymi wzrostami ruchu spowodowanymi przez użytkowników podczas ważnych wydarzeń. Jednak obecny poziom ruchu generowanego przez boty jest bezprecedensowy i stanowi rosnące ryzyko dla stabilności, a także dostępności usług. Fundacja aktywnie monitoruje sytuację i podejmuje działania mające na celu ograniczenie wpływu botów na infrastrukturę. Zespół ds. niezawodności witryny poświęca znaczną ilość czasu i zasobów na blokowanie niepożądanych crawlerów, aby zapobiec zakłóceniom dla regularnych użytkowników. Niemniej problem pozostaje poważnym wyzwaniem, które wymaga dalszych działań i współpracy z twórcami botów, a także społecznością AI. Zjawisko masowego pobierania danych przez boty AI nie jest unikalne dla Wikimedia. Wiele organizacji i serwisów internetowych doświadcza podobnych problemów, gdy ich zasoby są wykorzystywane do trenowania modeli sztucznej inteligencji bez odpowiednich uzgodnień czy też rekompensat. To rodzi pytania o etykę, a także o odpowiedzialność w zakresie wykorzystywania publicznie dostępnych danych, jak również o potrzebę ustanowienia nowych standardów i regulacji w tej dziedzinie.
Powiązane publikacje

Meta kontra FTC. Kevin Systrom ujawnia, że Mark Zuckerberg postrzegał Instagram jako zagrożenie dla Facebooka
23
OpenAI rozważa zakup przeglądarki Chrome od Google, co oznacza potencjalną rewolucję w dostępie do sztucznej inteligencji
22
Użytkownicy skarżą się, że ChatGPT zbyt często ich chwali. Czy sztuczna inteligencja przestała mówić prawdę?
44
Facebook traci znaczenie wśród młodszych pokoleń. Wewnętrzne e-maile Meta pokazują rosnące problemy z atrakcyjnością platformy
57