NVIDIA każe kraść pracownikom materiały z YouTube i Netflixa, aby szkolić nowy model AI. Rozwój sztucznej inteligencji ma swoją cenę
Obecny rozwój sztucznej inteligencji ma dwie strony medalu. Z jednej strony użytkownicy widzą skutki podejmowanych działań, gdyż mogą korzystać z coraz lepszych rozwiązań, które są stale ulepszane. Natomiast z drugiej strony to doskonalenie ma swoją cenę: jest nią łamanie praw autorskich. Aby wyszkolić modele AI, potrzebne są ogromne zbiory danych. Duże firmy kradną więc wymagane materiały w różny sposób. Okazuje się, że NVIDIA także robi to na potęgę.
W internecie ukazały się wewnętrzne rozmowy pracowników firmy NVIDIA. Okazało się, że przedsiębiorstwo codziennie pobiera ogromną liczbę filmów z różnych serwisów, które później są wykorzystywane do szkolenia nowego modelu AI (ten nie został jeszcze ujawniony).
Startup Runway, którego wspierała NVIDIA i Google, ukradł tysiące filmów z YouTube, aby szkolić swój generator wideo
NVIDIA króluje obecnie w segmencie sztucznej inteligencji, ponieważ oferuje akceleratory, które potrafią zapewnić odpowiednią wydajność w obsłudze modeli AI. Firma jednak sama także chce się rozwijać pod względem oprogramowania. Celem projektu o nazwie Cosmos jest stworzenie modelu AI, który będzie dosłownie wszechstronny i zasili platformę NVIDIA Omniverse, a przy okazji "różne aplikacje o krytycznym znaczeniu dla firmy". W internecie pojawiły się wewnętrzne rozmowy, które były prowadzone na platformie Slack. Wynika z nich, że pracownicy mieli za zadanie pobierać ogromne ilości materiałów z platformy YouTube, choć w grę wchodził także Netflix oraz filmy należące do Discovery. Niektórzy pracownicy niższego szczebla wyrażali swoje obawy związane z łamaniem praw autorskich, jednak "góra" zapewniała ich, że mają stosowne pozwolenia i nie powinni się tym przejmować.
OpenAI wykorzystywało materiały wideo z YouTube do treningu modelu językowego stojącego za ChatGPT
Pobieranie filmów z platformy YouTube odbywało się np. za pomocą narzędzia yt-dlp, a w tym celu wykorzystywano maszyny wirtualne, co pozwalało łatwo ominąć blokadę platformy spowodowaną jednym adresem IP. Zbiory danych, z jakich korzystała NVIDIA, obejmowały HD-VG-130M, który w swojej bazie zawiera linki do 130 mln materiałów z platformy YouTube. W rozmowach osoby z wyższego szczebla dyskutowały o tym, aby być ostrożnym z publikacją rezultatów badań, ponieważ dzisiaj branża jest przeczulona pod względem sztucznej inteligencji, więc firma mogłaby mieć kłopoty. Z jednej strony spotykamy się więc z PR-em dużych firm, który ma jeden cel — postawić przedsiębiorstwo w jak najlepszym świetle. Jednak pamiętajmy, że pod tą maską ukrywają się prawdziwe intencje, a więc chęć jak największych zysków nie patrząc na konsekwencje i nie zważając na ewentualne "przeszkody", takie jak prawa autorskie.
Powiązane publikacje

Windows 11 może otrzymać funkcję z Windows Vista. Już teraz skorzystamy z darmowej alternatywy
22
Microsoft Gaming Copilot w Xbox Game Bar na Windows z analizą ekranu w czasie rzeczywistym i obsługą głosową dla graczy
17
Zorin OS 18 nadchodzi. Wersja beta tej dystrybucji Linuksa już dostępna. Poznaliśmy część nowości
39
Przeglądarka Vivaldi 7.6 oferuje jeszcze większą personalizację. Zobacz, co się zmieniło po nowej aktualizacji
27