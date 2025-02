Wszelkie usługi oparte na algorytmach sztucznej inteligencji mają jeden wspólny problem - legalność ich działania. Od czasu szybkiego rozwoju ChatGPT oraz modeli zdolnych generować obrazy z opisów tekstowych (Midjourney, Stable Diffusion) ta kwestia jest wciąż rozważana przez wiele osób. Część z nich otwarcie twierdzi, że usługi te łamią prawa autorskie, szczególnie jeśli chodzi o wszelkich twórców dzieł. Jedną z takich osób jest Sarah Silverman, która nie zamierza bezczynnie czekać.

W piątek (7.10.2023 r.) Sarah Silveraman oraz inni złożyli zbiorowe pozwy przeciwko OpenAI, oraz firmie Meta, ponieważ uważają, że modele językowe pozwanych były szkolone na materiałach chronionych prawem autorskim.

Sarah Silverman (pisarka, stand-uperka) jest tylko jedną z wielu osób, które za pośrednictwem firmy prawniczej Joseph Saveri złożyły zbiorowe pozwy. Opierają się one w głównej mierze na tym, że zarówno ChatGPT od OpenAI, jak i LLaMA od Mety, trenowane były na danych, które podlegały ochronie na podstawie praw autorskich. Cała sprawa nie jest pierwszą tego typu, ponieważ raptem w styczniu bieżącego roku (2023 r.) został złożony pozew przeciwko Stability AI, Midjourney i DeviantArt. Wszystkie z nich mają więc jeden wspólny wątek - DMCA (Digital Millennium Copyright Act), czyli ustawę z zakresu prawa autorskiego. W tytułowej sprawie do firmy prawniczej zgłaszano się już w marcu, ponieważ autorzy książek byli zaniepokojeni tym, że treści generowane przez AI są bliźniaczo podobne do tych, które można spotkać w dziełach objętych prawem autorskim. Zaczęli więc podejrzewać, że dane treningowe musiały obejmować te "wrażliwe" materiały.

Obie usługi nazwano "plagiatorami na skalę przemysłową, którzy naruszają prawa autorów książek". Powodzi domagają się zadośćuczynienia i zmian w aspekcie działania usług. W pozwie możemy również się dowiedzieć, że według pozywających autorów ChatGPT został wyszkolony na 294 tys. książek, które zostały pobrane z tzw. shadow library (baza danych, dająca dostęp do niepublicznych treści, często wbrew prawom autorskim), jak choćby Library Genesis lub Z-Library. Model LLaMA rzekomo również korzystał z podobnych źródeł, które Meta określiła jako zbiór ThePile. Podobno zbiór BookCorpus także posłużył do trenowania modeli AI. Powodom wydaje się niemal pewne, że usługi te korzystały nielegalnie ze zbiorów danych chronionych prawem autorskim, ponieważ choćby ChatGPT jest w stanie podsumować jedną z książek, która się do niego zalicza. Twórcy uważają, że usługi wielkich firm czerpią zyski z cudzej pracy. Wynik tej sprawy będzie niezmiernie ciekawy, ponieważ kwestie legalności są nadal nierozstrzygnięte.

Źródło: ArsTechnica