Sztuczna inteligencja od Microsoftu podrobi dowolny głos wraz z jego emocjami. VALL-E 2 potrzebuje tylko kilkusekundowej próbki
Usługi nazywane dziś zbiorczo sztuczną inteligencją są w stanie generować realistyczne obrazy, a nawet wideo, radzą sobie coraz lepiej z tworzeniem muzyki, a nawet z wypowiadaniem określonych zdań ludzkim głosem. W tej ostatniej kategorii właśnie osiągnięto kolejny kamień milowy. Tak przynajmniej twierdzi firma Microsoft, która opracowała drugą generację modelu syntezy mowy o nazwie VALL-E. Potrafi on praktycznie idealnie imitować dowolny głos.
Microsoft opracował drugą generację modelu AI o nazwie VALL-E, który ma stanowić dosłownie rewolucję w zakresie syntezy tekstu na mowę (TTS). Nowość potrafi "przemówić" dowolnym ludzkim głosem w tak naturalny sposób, że ciężko odróżnić stworzoną próbkę od pierwotnej.
VALL-E - system Microsoftu bazujący na SI potrafi naśladować głos każdego człowieka na bazie małej próbki
Już pierwsza generacja modelu syntezy mowy VALL-E potrafiła zaimponować. Microsoft tworząc kolejny model z tej serii, który opiera się na pierwowzorze, postanowił jeszcze bardziej ulepszyć aspekty, które tego wymagały. Uzyskano jednak tak dobre rezultaty, że firma nie ma zamiaru udostępniać swojego rozwiązania, które na ten moment stanowi po prostu obiekt badań. VALL-E 2 w benchmarkach osiągnął dosłownie ludzki stopień odwzorowania głosu. Jest to dość imponujące, gdyż modelowi wystarczy krótka, kilkusekundowa próbka głosu, aby później go praktycznie idealnie naśladować. Mowa tu nie tylko o tonie głosu, czy też jego barwie, ale również o emocjach, jakie można w nim usłyszeć lub zmianie tempa. Co ciekawe, model jest w stanie również naśladować charakterystyczne cechy danego głosu, takie jak akcent.
Sztuczna Inteligencja może teraz za Ciebie stworzyć muzykę. Jak dobry jest nowy system MusicLM od Google?
Wysoką jakość generowanych treści osiągnięto dzięki dwóm metodom: Repetition-Aware Sampling (dosł. próbkowanie uwzględniające powtarzalność) oraz Grouped Code Modeling (dosł. modelowanie kodu grupowego). Pierwsza funkcja pomaga modelowi nie wchodzić w nieskończone pętle dźwiękowe (powtórzenia tokenów) w procesie dekodowania. Z kolei druga organizuje tokeny w mniejsze grupy, co skraca sekwencję wejściową, a w rezultacie przyspiesza cały proces. Wszystko przekłada się na naturalne brzmienie głosu, które jest praktycznie takie samo, jak w dostarczonej na początku próbce. VALL-E 2 radzi sobie nie tylko w wypowiadaniu złożonych zdań, ale także w przypadku powtarzalnych wyrazów. Pracę naukową znajdziemy pod tym adresem, z kolei przykłady dźwiękowe możemy usłyszeć na oficjalnej stronie (link).
Powiązane publikacje

CrystalMark Retro 2.0.0 to nowa wersja kultowego benchmarku z obsługą systemów od Microsoft Windows 95 do Windows 11
12
Google Gemini 2.5 Pro dostępny za darmo. Nowy model AI zaskakuje wynikami w testach i multimodalnością
23
Apple planuje rewolucję w aplikacji Zdrowie, wprowadzając wirtualnego lekarza wykorzystującego sztuczną inteligencję
24
Przeglądarka internetowa Vivaldi integruje się z Proton VPN. Użytkownicy mogą stać się bardziej anonimowi w Internecie
142