OpenAI wykorzystywało materiały wideo z YouTube do treningu modelu językowego stojącego za ChatGPT
Stojące za usługą ChatGPT modele językowe GPT-3.5 i GPT-4 wymagały olbrzymiej ilości danych, żeby osiągnąć obecny poziom zaawansowania. Trening opierał się na treściach z różnych źródeł, ale niektóre z nich mogą wydawać się nieco kontrowersyjne i niezbyt zgodne z poszanowaniem praw autorskich. Jednym z takich przypadków są materiały wideo z YouTube. OpenAI przygotowało w tym celu specjalne oprogramowanie, a Google miało nie sprzeciwiać się takim praktykom.
OpenAI wykorzystywało aplikację konwertującą mowę na tekst, w celu pozyskania z serwisu YouTube danych służących do treningu sztucznej inteligencji. Źródła donoszą, że podobne praktyki stosowała też firma Google.
Model GPT-4 od OpenAI został zdetronizowany. Użytkownicy wybrali następnego króla, którym jest nowość od Anthropic
Kontrowersje dotyczące źródeł, z których pochodzą dane wykorzystywane do treningu sztucznej inteligencji, pojawiają się nie po raz pierwszy. Przypadek YouTube jest jednak o tyle istotny, że serwis cieszy się olbrzymią popularnością i wielu użytkowników przesyła tam także swoje prywatne materiały wideo. Jak donosi The New York Times, w celu przygotowania danych z tego serwisu, OpenAI stworzyło oprogramowanie Whisper, które służy do konwertowania mowy na tekst. Narzędzie miało dobrze nadawać się do przygotowania tekstowych "wersji" materiałów z YouTube, które następnie można było wykorzystać do treningu modelu GPT-4.
Sora - największa rewolucja w świecie AI od czasu ChatGPT. Powstał fotorealistyczny generator wideo z opisów tekstowych
Pikanterii sprawie dodaje fakt, że OpenAI ponoć w pełni zdawało sobie sprawę z tego, że wykorzystanie danych z YouTube jest bardzo kontrowersyjnym posunięciem, ale i tak się na to zdecydowało. Źródła donoszą, że w selekcję odpowiednich materiałów wideo zaangażowany był bezpośrednio nawet Greg Brockman ze ścisłego kierownictwa firmy. Google prawdopodobnie nie sprzeciwiało się takim praktykom, bo firma z Mountain View sama wykorzystywała materiały z YouTube do treningu własnych modeli językowych. Takie działania mogą być w praktyce naruszeniem praw autorskich twórców publikujących swoje dzieła w tym serwisie.
The New York Times pozywa Microsoft i OpenAI. Powodem jest naruszenie praw autorskich przez ChatGPT i Microsoft Copilot
O sprawę został zapytany także dyrektor generalny YouTube - Neal Mohan. Stwierdził, że widział doniesienia, które mogłyby wskazywać, że takie praktyki były lub nie były stosowane (jakkolwiek dziwnie takie stwierdzenie by nie zabrzmiało). Nie posiada jednak osobiście żadnych konkretnych informacji na ten temat. Samo Google zaś twierdzi, że wykorzystuje część materiałów wideo z YouTube do treningu sztucznej inteligencji, ale odbywa się to w porozumieniu z ich twórcami. Co ciekawe, także Meta ma pozyskiwać dane objęte prawami autorskimi do treningu AI. Również w tym przypadku budzi to wątpliwości natury prawnej. Warto przypomnieć, że The New York Times złożył niedawno pozew przeciwko OpenAI i Microsoftowi, z powodu domniemanego wykorzystywania treści z serwisu NYT w nielegalny sposób.
Powiązane publikacje

CrystalMark Retro 2.0.0 to nowa wersja kultowego benchmarku z obsługą systemów od Microsoft Windows 95 do Windows 11
12
Google Gemini 2.5 Pro dostępny za darmo. Nowy model AI zaskakuje wynikami w testach i multimodalnością
23
Apple planuje rewolucję w aplikacji Zdrowie, wprowadzając wirtualnego lekarza wykorzystującego sztuczną inteligencję
24
Przeglądarka internetowa Vivaldi integruje się z Proton VPN. Użytkownicy mogą stać się bardziej anonimowi w Internecie
142