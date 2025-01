Usługi nazywane dziś zbiorczo sztuczną inteligencją są w stanie generować realistyczne obrazy, a nawet wideo, radzą sobie coraz lepiej z tworzeniem muzyki, a nawet z wypowiadaniem określonych zdań ludzkim głosem. W tej ostatniej kategorii właśnie osiągnięto kolejny kamień milowy. Tak przynajmniej twierdzi firma Microsoft, która opracowała drugą generację modelu syntezy mowy o nazwie VALL-E. Potrafi on praktycznie idealnie imitować dowolny głos.

Microsoft opracował drugą generację modelu AI o nazwie VALL-E, który ma stanowić dosłownie rewolucję w zakresie syntezy tekstu na mowę (TTS). Nowość potrafi "przemówić" dowolnym ludzkim głosem w tak naturalny sposób, że ciężko odróżnić stworzoną próbkę od pierwotnej.

Już pierwsza generacja modelu syntezy mowy VALL-E potrafiła zaimponować. Microsoft tworząc kolejny model z tej serii, który opiera się na pierwowzorze, postanowił jeszcze bardziej ulepszyć aspekty, które tego wymagały. Uzyskano jednak tak dobre rezultaty, że firma nie ma zamiaru udostępniać swojego rozwiązania, które na ten moment stanowi po prostu obiekt badań. VALL-E 2 w benchmarkach osiągnął dosłownie ludzki stopień odwzorowania głosu. Jest to dość imponujące, gdyż modelowi wystarczy krótka, kilkusekundowa próbka głosu, aby później go praktycznie idealnie naśladować. Mowa tu nie tylko o tonie głosu, czy też jego barwie, ale również o emocjach, jakie można w nim usłyszeć lub zmianie tempa. Co ciekawe, model jest w stanie również naśladować charakterystyczne cechy danego głosu, takie jak akcent.

Wysoką jakość generowanych treści osiągnięto dzięki dwóm metodom: Repetition-Aware Sampling (dosł. próbkowanie uwzględniające powtarzalność) oraz Grouped Code Modeling (dosł. modelowanie kodu grupowego). Pierwsza funkcja pomaga modelowi nie wchodzić w nieskończone pętle dźwiękowe (powtórzenia tokenów) w procesie dekodowania. Z kolei druga organizuje tokeny w mniejsze grupy, co skraca sekwencję wejściową, a w rezultacie przyspiesza cały proces. Wszystko przekłada się na naturalne brzmienie głosu, które jest praktycznie takie samo, jak w dostarczonej na początku próbce. VALL-E 2 radzi sobie nie tylko w wypowiadaniu złożonych zdań, ale także w przypadku powtarzalnych wyrazów. Pracę naukową znajdziemy pod tym adresem, z kolei przykłady dźwiękowe możemy usłyszeć na oficjalnej stronie (link).

