Sztuczna inteligencja od Microsoftu podrobi dowolny głos wraz z jego emocjami. VALL-E 2 potrzebuje tylko kilkusekundowej próbki

Natan Faleńczyk | 11-07-2024 13:00 |

Oprogramowanie

Sztuczna inteligencja od Microsoftu podrobi dowolny głos wraz z jego emocjami. VALL-E 2 potrzebuje tylko kilkusekundowej próbki Usługi nazywane dziś zbiorczo sztuczną inteligencją są w stanie generować realistyczne obrazy, a nawet wideo, radzą sobie coraz lepiej z tworzeniem muzyki, a nawet z wypowiadaniem określonych zdań ludzkim głosem. W tej ostatniej kategorii właśnie osiągnięto kolejny kamień milowy. Tak przynajmniej twierdzi firma Microsoft, która opracowała drugą generację modelu syntezy mowy o nazwie VALL-E. Potrafi on praktycznie idealnie imitować dowolny głos.

Microsoft opracował drugą generację modelu AI o nazwie VALL-E, który ma stanowić dosłownie rewolucję w zakresie syntezy tekstu na mowę (TTS). Nowość potrafi "przemówić" dowolnym ludzkim głosem w tak naturalny sposób, że ciężko odróżnić stworzoną próbkę od pierwotnej.

VALL-E - system Microsoftu bazujący na SI potrafi naśladować głos każdego człowieka na bazie małej próbki

Już pierwsza generacja modelu syntezy mowy VALL-E potrafiła zaimponować. Microsoft tworząc kolejny model z tej serii, który opiera się na pierwowzorze, postanowił jeszcze bardziej ulepszyć aspekty, które tego wymagały. Uzyskano jednak tak dobre rezultaty, że firma nie ma zamiaru udostępniać swojego rozwiązania, które na ten moment stanowi po prostu obiekt badań. VALL-E 2 w benchmarkach osiągnął dosłownie ludzki stopień odwzorowania głosu. Jest to dość imponujące, gdyż modelowi wystarczy krótka, kilkusekundowa próbka głosu, aby później go praktycznie idealnie naśladować. Mowa tu nie tylko o tonie głosu, czy też jego barwie, ale również o emocjach, jakie można w nim usłyszeć lub zmianie tempa. Co ciekawe, model jest w stanie również naśladować charakterystyczne cechy danego głosu, takie jak akcent.

Sztuczna Inteligencja może teraz za Ciebie stworzyć muzykę. Jak dobry jest nowy system MusicLM od Google?

Wysoką jakość generowanych treści osiągnięto dzięki dwóm metodom: Repetition-Aware Sampling (dosł. próbkowanie uwzględniające powtarzalność) oraz Grouped Code Modeling (dosł. modelowanie kodu grupowego). Pierwsza funkcja pomaga modelowi nie wchodzić w nieskończone pętle dźwiękowe (powtórzenia tokenów) w procesie dekodowania. Z kolei druga organizuje tokeny w mniejsze grupy, co skraca sekwencję wejściową, a w rezultacie przyspiesza cały proces. Wszystko przekłada się na naturalne brzmienie głosu, które jest praktycznie takie samo, jak w dostarczonej na początku próbce. VALL-E 2 radzi sobie nie tylko w wypowiadaniu złożonych zdań, ale także w przypadku powtarzalnych wyrazów. Pracę naukową znajdziemy pod tym adresem, z kolei przykłady dźwiękowe możemy usłyszeć na oficjalnej stronie (link).

Źródło: Microsoft

Bądź na bieżąco - obserwuj PurePC.pl na Google News

Tagi:

Zgłoś błąd

Powiązane publikacje

Deepfake nie ma szans? NVIDIA pokazuje narzędzie, które łapie fałszywe wideo z 92-procentową skutecznością w 22 milisekundy

Microsoft przywraca zablokowane 25-letnie konto Xboksa i OneDrive po publicznej krytyce w mediach społecznościowych

Linus Torvalds broni AI w jądrze Linuksa. Sashiko od Google wykrywa mnóstwo błędów, których wcześniej nie wyłapali ludzie

Microsoft blokuje konto po włamaniu i kasuje 25 lat danych użytkownika bez możliwości odzyskania

Obywatel Bielik. Miliony zdjęć z telefonów Polaków mają nauczyć AI, czym naprawdę są kluski śląskie

Liczba komentarzy: 37

Komentarze:

Załaduj komentarze

Sztuczna inteligencja od Microsoftu podrobi dowolny głos wraz z jego emocjami. VALL-E 2 potrzebuje tylko kilkusekundowej próbki

Microsoft opracował drugą generację modelu AI o nazwie VALL-E, który ma stanowić dosłownie rewolucję w zakresie syntezy tekstu na mowę (TTS). Nowość potrafi "przemówić" dowolnym ludzkim głosem w tak naturalny sposób, że ciężko odróżnić stworzoną próbkę od pierwotnej.

VALL-E - system Microsoftu bazujący na SI potrafi naśladować głos każdego człowieka na bazie małej próbki

Sztuczna Inteligencja może teraz za Ciebie stworzyć muzykę. Jak dobry jest nowy system MusicLM od Google?

Powiązane publikacje

Deepfake nie ma szans? NVIDIA pokazuje narzędzie, które łapie fałszywe wideo z 92-procentową skutecznością w 22 milisekundy

Microsoft przywraca zablokowane 25-letnie konto Xboksa i OneDrive po publicznej krytyce w mediach społecznościowych

Linus Torvalds broni AI w jądrze Linuksa. Sashiko od Google wykrywa mnóstwo błędów, których wcześniej nie wyłapali ludzie

Microsoft blokuje konto po włamaniu i kasuje 25 lat danych użytkownika bez możliwości odzyskania

Obywatel Bielik. Miliony zdjęć z telefonów Polaków mają nauczyć AI, czym naprawdę są kluski śląskie

Komentarze:

Recenzja DDPAI Z90 Master 3CH. Wideorejestrator 4K + 4K + 3K, z doświetlaniem IR oraz podwójną pamięcią

Jaka myszka do grania? Jaka klawiatura mechaniczna? Poradnik zakupowy i polecany sprzęt dla graczy na lipiec 2026

Recenzja DDPAI Z60 Pro 3CH. Wideorejestrator 4K z trzema kamerami, w akceptowalnej cenie

Test wydajności Assassin's Creed Black Flag Resynced - Wymagania sprzętowe zmiatają z pokładu? Piraci puszczą wszystkich bez gaci?

Test procesora AMD Ryzen 7 7700X3D - Słabsza wersja AMD Ryzen 7 7800X3D... Jednak cena na poziomie szybszego modelu

Tomb Raider: Legacy of Atlantis - nowy gameplay prezentujący poruszanie się i eksplorację w grze

Deepfake nie ma szans? NVIDIA pokazuje narzędzie, które łapie fałszywe wideo z 92-procentową skutecznością w 22 milisekundy

Google szykuje Frozen v2. Chip pod Gemini ma dać 6–10x więcej tokenów z wata niż obecne TPU

Gracz przykręcił do GeForce RTX 4060 radiator wielkości cegły. Powstała z tego najszybsza pasywnie chłodzona karta graficzna

Steam Machine został wyceniony z myślą o przyszłych wzrostach cen pamięci RAM. Wywiad z inżynierami Valve ujawnia kulisy

Wyniki wielkiego konkursu na 20 urodziny PurePC! Sprawdź czy wygrałeś jedną z kilkudziesięciu nagród

Steam Machine z oficjalną ceną. Valve właśnie zgasiło entuzjazm graczy - aż trudno uwierzyć w te kwoty!

GeForce RTX 5090 Founders Edition padł w redakcyjnym teście. Kabel 12V-2x6 stopił się po obu stronach

Jest odczyt Hot Spot na NVIDIA GeForce RTX 5000 - Diagnostyczne programy zaczęły podawać informacje o temperaturach

Karty graficzne AMD Radeon RX 7000 z serii RDNA 3 od dzisiaj oficjalnie z dostępem do ulepszonego upscalingu FSR 4.1

O portalu PurePC

Najważniejsze

Znajdź PurePC na