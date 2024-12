Początkowo za dość rewolucyjne mogliśmy uznać generowanie wysokiej jakości obrazów z opisów tekstowych. Logicznym następstwem było tworzenie przez odpowiednie algorytmy materiałów wideo. W drugim przypadku istotną wadą jest brak ścieżki dźwiękowej, więc mamy do czynienia z niemymi filmami. Firma Google stara się to zmienić i właśnie zaprezentowała efekty technologii V2A (video-to-audio), które już teraz są naprawdę całkiem obiecujące.

Google podzieliło się rezultatami, jakie już teraz można osiągnąć przy pomocy technologii V2A. Dzięki niej nieme filmy mogą ożyć, ponieważ generowana jest do nich ścieżka dźwiękowa. Całość wypada naprawdę dobrze.

Nie da się ukryć, że Google za wszelką cenę stara się dogonić uciekającą konkurencję w dziedzinie sztucznej inteligencji, choć do tej pory firma nie osiągnęła najlepszych efektów. Nie można jednak uznać, że wszystkie produkty w ostatnim czasie okazały się niewystarczająco dobre — po prostu borykały się problemami, z którymi mierzą się także inne rozwiązania oparte na AI. Tym razem jeden z oddziałów firmy, a dokładniej Google DeepMind, zaprezentował swoje nowe osiągnięcia. Dotyczą one możliwości generowania ścieżek dźwiękowych do materiałów wideo. Technologia V2A pozwala również na sprecyzowanie tego, co chcemy osiągnąć, poprzez udzielenie podpowiedzi tekstowej — rozwiązanie nie potrzebuje jednak ich do działania i właśnie to wyróżnia je od innych. Finalny efekt może być zaskakująco dobry.

W całym procesie najpierw kodowane jest wideo oraz opis tekstowy, które następnie przechodzą przez model dyfuzyjny. Po tych krokach tworzona jest skompresowana ścieżka audio, która później jest dekodowana. Technologia V2A może więc być użyta nie tylko z modelami, które są w stanie tworzyć wideo (wszystkie przykłady wygenerowano z użyciem autorskiego modelu Veo), ale również z gotowymi materiałami wideo z dawnych lat, do których nie ma ścieżki audio. Rozwiązanie stwarza nowe możliwości w tej dziedzinie, choć nie jest oczywiście idealne. Jakość audio jest zależna od wejściowej jakości wideo, ponieważ przy generowaniu ścieżki analizowane są piksele. Możliwa jest także synchronizacja ruchu warg ze stworzonym dźwiękiem, natomiast na ten moment działanie nie jest jeszcze zadowalające (ostatnie wideo). Google udostępni technologię V2A dopiero wtedy, gdy uzna to za słuszne — chodzi o kwestie bezpieczeństwa.

