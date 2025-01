Stojące za usługą ChatGPT modele językowe GPT-3.5 i GPT-4 wymagały olbrzymiej ilości danych, żeby osiągnąć obecny poziom zaawansowania. Trening opierał się na treściach z różnych źródeł, ale niektóre z nich mogą wydawać się nieco kontrowersyjne i niezbyt zgodne z poszanowaniem praw autorskich. Jednym z takich przypadków są materiały wideo z YouTube. OpenAI przygotowało w tym celu specjalne oprogramowanie, a Google miało nie sprzeciwiać się takim praktykom.

OpenAI wykorzystywało aplikację konwertującą mowę na tekst, w celu pozyskania z serwisu YouTube danych służących do treningu sztucznej inteligencji. Źródła donoszą, że podobne praktyki stosowała też firma Google.

Kontrowersje dotyczące źródeł, z których pochodzą dane wykorzystywane do treningu sztucznej inteligencji, pojawiają się nie po raz pierwszy. Przypadek YouTube jest jednak o tyle istotny, że serwis cieszy się olbrzymią popularnością i wielu użytkowników przesyła tam także swoje prywatne materiały wideo. Jak donosi The New York Times, w celu przygotowania danych z tego serwisu, OpenAI stworzyło oprogramowanie Whisper, które służy do konwertowania mowy na tekst. Narzędzie miało dobrze nadawać się do przygotowania tekstowych "wersji" materiałów z YouTube, które następnie można było wykorzystać do treningu modelu GPT-4.

Pikanterii sprawie dodaje fakt, że OpenAI ponoć w pełni zdawało sobie sprawę z tego, że wykorzystanie danych z YouTube jest bardzo kontrowersyjnym posunięciem, ale i tak się na to zdecydowało. Źródła donoszą, że w selekcję odpowiednich materiałów wideo zaangażowany był bezpośrednio nawet Greg Brockman ze ścisłego kierownictwa firmy. Google prawdopodobnie nie sprzeciwiało się takim praktykom, bo firma z Mountain View sama wykorzystywała materiały z YouTube do treningu własnych modeli językowych. Takie działania mogą być w praktyce naruszeniem praw autorskich twórców publikujących swoje dzieła w tym serwisie.

O sprawę został zapytany także dyrektor generalny YouTube - Neal Mohan. Stwierdził, że widział doniesienia, które mogłyby wskazywać, że takie praktyki były lub nie były stosowane (jakkolwiek dziwnie takie stwierdzenie by nie zabrzmiało). Nie posiada jednak osobiście żadnych konkretnych informacji na ten temat. Samo Google zaś twierdzi, że wykorzystuje część materiałów wideo z YouTube do treningu sztucznej inteligencji, ale odbywa się to w porozumieniu z ich twórcami. Co ciekawe, także Meta ma pozyskiwać dane objęte prawami autorskimi do treningu AI. Również w tym przypadku budzi to wątpliwości natury prawnej. Warto przypomnieć, że The New York Times złożył niedawno pozew przeciwko OpenAI i Microsoftowi, z powodu domniemanego wykorzystywania treści z serwisu NYT w nielegalny sposób.

Źródło: The New York Times, TechSpot