Google chce wprowadzić generowanie filmów na inny poziom. Technologia V2A stworzy do nich ścieżki dźwiękowe
Początkowo za dość rewolucyjne mogliśmy uznać generowanie wysokiej jakości obrazów z opisów tekstowych. Logicznym następstwem było tworzenie przez odpowiednie algorytmy materiałów wideo. W drugim przypadku istotną wadą jest brak ścieżki dźwiękowej, więc mamy do czynienia z niemymi filmami. Firma Google stara się to zmienić i właśnie zaprezentowała efekty technologii V2A (video-to-audio), które już teraz są naprawdę całkiem obiecujące.
Google podzieliło się rezultatami, jakie już teraz można osiągnąć przy pomocy technologii V2A. Dzięki niej nieme filmy mogą ożyć, ponieważ generowana jest do nich ścieżka dźwiękowa. Całość wypada naprawdę dobrze.
Veo - nowy generator wideo korzystający z mocy AI od Google. Nadchodzi pierwszy poważny rywal dla Sory od OpenAI
Nie da się ukryć, że Google za wszelką cenę stara się dogonić uciekającą konkurencję w dziedzinie sztucznej inteligencji, choć do tej pory firma nie osiągnęła najlepszych efektów. Nie można jednak uznać, że wszystkie produkty w ostatnim czasie okazały się niewystarczająco dobre — po prostu borykały się problemami, z którymi mierzą się także inne rozwiązania oparte na AI. Tym razem jeden z oddziałów firmy, a dokładniej Google DeepMind, zaprezentował swoje nowe osiągnięcia. Dotyczą one możliwości generowania ścieżek dźwiękowych do materiałów wideo. Technologia V2A pozwala również na sprecyzowanie tego, co chcemy osiągnąć, poprzez udzielenie podpowiedzi tekstowej — rozwiązanie nie potrzebuje jednak ich do działania i właśnie to wyróżnia je od innych. Finalny efekt może być zaskakująco dobry.
ImageFX - Google wprowadza swój generator obrazów. W grafikach znajdzie się znak wodny, który widzą tylko maszyny
W całym procesie najpierw kodowane jest wideo oraz opis tekstowy, które następnie przechodzą przez model dyfuzyjny. Po tych krokach tworzona jest skompresowana ścieżka audio, która później jest dekodowana. Technologia V2A może więc być użyta nie tylko z modelami, które są w stanie tworzyć wideo (wszystkie przykłady wygenerowano z użyciem autorskiego modelu Veo), ale również z gotowymi materiałami wideo z dawnych lat, do których nie ma ścieżki audio. Rozwiązanie stwarza nowe możliwości w tej dziedzinie, choć nie jest oczywiście idealne. Jakość audio jest zależna od wejściowej jakości wideo, ponieważ przy generowaniu ścieżki analizowane są piksele. Możliwa jest także synchronizacja ruchu warg ze stworzonym dźwiękiem, natomiast na ten moment działanie nie jest jeszcze zadowalające (ostatnie wideo). Google udostępni technologię V2A dopiero wtedy, gdy uzna to za słuszne — chodzi o kwestie bezpieczeństwa.
Powiązane publikacje

CrystalMark Retro 2.0.0 to nowa wersja kultowego benchmarku z obsługą systemów od Microsoft Windows 95 do Windows 11
12
Google Gemini 2.5 Pro dostępny za darmo. Nowy model AI zaskakuje wynikami w testach i multimodalnością
23
Apple planuje rewolucję w aplikacji Zdrowie, wprowadzając wirtualnego lekarza wykorzystującego sztuczną inteligencję
24
Przeglądarka internetowa Vivaldi integruje się z Proton VPN. Użytkownicy mogą stać się bardziej anonimowi w Internecie
142