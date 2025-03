Jeszcze do niedawna jednym z większych osiągnięć technologicznych była możliwość generowania fotorealistycznych obrazów z opisów tekstowych. W międzyczasie pojawiały się także rozwiązania, które szły o krok dalej i pozwalały w ten sam sposób tworzyć kilkusekundowe materiały wideo. OpenAI podnosi poprzeczkę jeszcze wyżej i prezentuje model Sora, który potrafi tworzyć nawet minutowe filmy, a przy tym jest niezwykle zaawansowany - na tyle, że można go nazwać rewolucyjnym.

Firma OpenAI znana z chatbota ChatGPT oraz generatora obrazów DALL-E zaprezentowała nowe rozwiązanie o nazwie Sora. Jest to model, który może generować realistycznie materiały wideo z opisów tekstowych. Już teraz efekty są fascynujące i przerażające zarazem.

W przypadku nowego modelu Sora ciężko jest nie mówić o rewolucji. OpenAI stworzyło produkt na tyle wyróżniający się z tłumu, że po prostu nie sposób nazwać go inaczej. Dotychczasowe rozwiązania co prawda pozwalały na tworzenie wideo z poleceń tekstowych, natomiast same materiały nie były dokładne, spójne, ani też nie trwały zbyt długo. Sora zmienia ten obraz. Wydając polecenie temu generatorowi, zostaje ono najpierw przekształcone w bardziej rozbudowaną komendę (dzięki modelowi GPT), a następnie tworzone jest jak najdokładniejsze odwzorowanie tego, co napisaliśmy. Co jednak ważne, nowość potrafi symulować to, jak zachowują się konkretne osoby i stworzenia, a do tego niejako pamięta ich istnienie, nawet kiedy znikną z kadru. Mamy możliwość kontrolowania pracy kamery, a do tego model może wpływać na interakcje ze światem (np. kiedy człowiek ugryzie burgera, to zostaje na nim ślad po tej czynności, w więc zupełnie jak w prawdziwym świecie - choć nie zawsze jest tak idealnie).

Zbiór wszystkich przykładów wideo wygenerowanych przez model Sora, jakie udostępniło OpenAI.

Oprócz tego Sora może generować wideo z pojedynczego obrazu i opisu tekstowego, tworzyć brakujące klatki do istniejących filmów, czy też łączyć elementy z dwóch materiałów wideo w jeden film. Tak jak wspomniano, każde wygenerowane wideo może trwać maksymalnie minutę. Sora była szkolona na natywnych materiałach o wysokich rozdzielczościach (bez problemu radzi sobie z 1920 x 1080, 1080 x 1920 pikseli i wszystkimi wartościami pomiędzy), a nie niskich pokroju 256 x 256 pikseli jak inne modele. Dzięki temu końcowe wideo jest naprawdę wysokiej jakości. Model jest przy tym dość wszechstronny, ponieważ może tworzyć wideo w wielu rozdzielczościach i formatach. Oczywiście ma też swoje wady, takie jak nie zawsze adekwatnie przewidziana fizyka obiektów (np. szkło nie stłucze się w naturalny sposób), czy choćby przypadkowe pojawianie się różnych rzeczy. Na ten moment prowadzone są badania i testy z ekspertami w tej dziedzinie, więc nikt prócz garstki wybranych osób nie ma do Sory dostępu. OpenAI chce wdrożyć też odpowiednie zabezpieczenia, aby nie można było generować materiałów, które będą przedstawiały treści seksualne, podobizny sławnych osób lub przemoc. Powstaje też narzędzie, które ma pomóc zidentyfikować, czy dane wideo zostało stworzone przez model Sora. Trzeba jednak przyznać, że postęp, jaki nastąpił w ciągu ostatniego roku, przypomina dosłownie lata świetlne rozwoju w tej dziedzinie. Niewątpliwie jest to spore zagrożenie, nad którym ciężej będzie zapanować. Dlatego też ważne jest, aby wprowadzić odpowiednie środki zaradcze, zanim rozwiązanie trafi do pierwszych użytkowników.

Źródło: OpenAI