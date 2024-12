Sztuczna inteligencja ma szansę zmienić wiele aspektów naszego życia. Jej rozwój nie może jednak przebiegać przy wykorzystaniu wątpliwych prawnie i moralnie działań. Najnowsze doniesienia wskazują, że z taką sytuacją możemy mieć do czynienia w przypadku kilku dużych modeli językowych. Chodzi o nielegalne wykorzystanie zdjęć dzieci do treningu modeli AI odpowiadających za generowanie obrazów. Korzystać ma z nich między innymi Stable Diffusion.

Badaczka Human Rights Watch odkryła w bazie danych LAION-5B zdjęcia brazylijskich dzieci. Zostały one w nieuprawniony sposób wykorzystane do treningu wielu modeli językowych, w tym Stable Diffusion.

Na problem wykorzystania zdjęć brazylijskich dzieci przy treningu sztucznej inteligencji bez odpowiedniej zgody uwagę zwróciła organizacja Human Rights Watch. W niektórych przypadkach użyte zostały fotografie obejmujące niemal całe dzieciństwo danych osób, a także bardzo prywatne sytuacje. Sprawą zajmuje się badaczka Hye Jung Han, która przeanalizowała niewielki odsetek (mniej niż 0,0001%) bazy danych LAION-5B. Zawarte w niej informacje były podstawą do treningu między innymi popularnego modelu Stable Diffusion. Główną część zawartości bazy stanowią połączenia tekstu i obrazów pochodzące z blisko 6 mld wpisów internetowych opublikowanych w sieci od 2008 roku. Wśród nich badaczka znalazła 170 zdjęć brazylijskich dzieci. Fotografie miały w większości charakter rodzinny, a ich źródło to przeważnie prywatne blogi, ale także materiały wideo z niewielką liczbą odsłon na YouTube. Były one najprawdopodobniej udostępniane przez twórców tylko z myślą o kręgach rodzinnych.

Wiele z obecnych na fotografiach dzieci dało się łatwo zidentyfikować, ponieważ zostały opatrzone imieniem i nazwiskiem oraz nazwą miejsca, w którym je zrobiono lub opublikowano. Choć organizacja LAION usunęła już zdjęcia ze swojej bazy, to wiele wskazuje na to, że jest to jedynie wierzchołek góry lodowej. Przez badaczkę HRW przeanalizowany został bowiem tylko bardzo niewielki odsetek danych. Można założyć, że w bazie znajduje się więcej zdjęć brazylijskich dzieci. Bardzo prawdopodobne jest, że nielegalnie wykorzystane zostały także fotografie dzieci z innych krajów. Warto zaznaczyć, że baza LAION-5B nie jest publicznie dostępna od grudnia zeszłego roku, kiedy to pojawił się pierwszy raport wskazujący na obecność w niej nielegalnych treści. Fundacja LAION od tamtej pory współpracuje z organizacjami pozarządowymi, żeby usunąć z bazy tego typu wpisy. Należy jednak podkreślić, że nie ma to większego znaczenia w kontekście już działających dużych modeli językowych, które były trenowane na LAION-5B. W tym przypadku mleko już się bowiem rozlało.

Źródło: Ars Technica