Google chce wprowadzić generowanie filmów na inny poziom. Technologia V2A stworzy do nich ścieżki dźwiękowe
Początkowo za dość rewolucyjne mogliśmy uznać generowanie wysokiej jakości obrazów z opisów tekstowych. Logicznym następstwem było tworzenie przez odpowiednie algorytmy materiałów wideo. W drugim przypadku istotną wadą jest brak ścieżki dźwiękowej, więc mamy do czynienia z niemymi filmami. Firma Google stara się to zmienić i właśnie zaprezentowała efekty technologii V2A (video-to-audio), które już teraz są naprawdę całkiem obiecujące.
Google podzieliło się rezultatami, jakie już teraz można osiągnąć przy pomocy technologii V2A. Dzięki niej nieme filmy mogą ożyć, ponieważ generowana jest do nich ścieżka dźwiękowa. Całość wypada naprawdę dobrze.
Veo - nowy generator wideo korzystający z mocy AI od Google. Nadchodzi pierwszy poważny rywal dla Sory od OpenAI
Nie da się ukryć, że Google za wszelką cenę stara się dogonić uciekającą konkurencję w dziedzinie sztucznej inteligencji, choć do tej pory firma nie osiągnęła najlepszych efektów. Nie można jednak uznać, że wszystkie produkty w ostatnim czasie okazały się niewystarczająco dobre — po prostu borykały się problemami, z którymi mierzą się także inne rozwiązania oparte na AI. Tym razem jeden z oddziałów firmy, a dokładniej Google DeepMind, zaprezentował swoje nowe osiągnięcia. Dotyczą one możliwości generowania ścieżek dźwiękowych do materiałów wideo. Technologia V2A pozwala również na sprecyzowanie tego, co chcemy osiągnąć, poprzez udzielenie podpowiedzi tekstowej — rozwiązanie nie potrzebuje jednak ich do działania i właśnie to wyróżnia je od innych. Finalny efekt może być zaskakująco dobry.
ImageFX - Google wprowadza swój generator obrazów. W grafikach znajdzie się znak wodny, który widzą tylko maszyny
W całym procesie najpierw kodowane jest wideo oraz opis tekstowy, które następnie przechodzą przez model dyfuzyjny. Po tych krokach tworzona jest skompresowana ścieżka audio, która później jest dekodowana. Technologia V2A może więc być użyta nie tylko z modelami, które są w stanie tworzyć wideo (wszystkie przykłady wygenerowano z użyciem autorskiego modelu Veo), ale również z gotowymi materiałami wideo z dawnych lat, do których nie ma ścieżki audio. Rozwiązanie stwarza nowe możliwości w tej dziedzinie, choć nie jest oczywiście idealne. Jakość audio jest zależna od wejściowej jakości wideo, ponieważ przy generowaniu ścieżki analizowane są piksele. Możliwa jest także synchronizacja ruchu warg ze stworzonym dźwiękiem, natomiast na ten moment działanie nie jest jeszcze zadowalające (ostatnie wideo). Google udostępni technologię V2A dopiero wtedy, gdy uzna to za słuszne — chodzi o kwestie bezpieczeństwa.
Powiązane publikacje

Właściciel WordPress redukuje zatrudnienie. 280 pracowników zwolnionych w ramach restrukturyzacji
18
Thunderbird stawia na przyszłość poczty. Thundermail i nowa wersja Pro z zaawansowanymi funkcjami dla wymagających
30
Jaka przeglądarka zapewnia największą prywatność? Ranking aplikacji na 2025 rok dla Linux, iOS, Android, Windows oraz macOS
54
Skylight to nowy rywal TikToka wspierany przez biznesmena Marka Cubana, wykorzystujący technologię Bluesky
8