VALL-E - system Microsoftu bazujący na SI potrafi naśladować głos każdego człowieka na bazie małej próbki
2023 rok, jeśli chodzi o sztuczną inteligencję, zaczął się naprawdę ciekawie. Już pod koniec 2022 roku pojawił się robiący wrażenie chatbot ChatGPT od OpenAI, a następnie (projekt także od OpenAI) mogliśmy podziwiać ilustracje generowane przez DALL·E. Teraz przyszła pora na zapoznanie się z VALL-E - systemem od Microsoftu, który jest niezwykle skuteczny w imitowaniu cudzych głosów. Aby przemówić wybranym głosem, potrzebuje do tego zaledwie 3-sekundowej, modelowej próbki.
VALL-E to niesamowicie skuteczny system Microsoftu, który imituje brzmienie ludzkich głosów. Aby brzmieć niczym wybrana osoba, potrzebuje jedynie 3-sekundowej próbki.
ChatGPT - popularny bot jest w stanie napisać także złośliwe oprogramowanie. Każdy może stać się hakerem?
System Microsoftu nie jest pierwszym tego typu, jednak w porównaniu z innymi wypada nieporównywalnie lepiej. Głównym atutem VALL-E jest to, że aby przekonująco imitować barwę i styl wypowiedzi człowieka, system ów potrzebuje próbki głosu trwającej zaledwie 3 sekundy. Twórcy zapewniają również, że ich SI potrafi ponadto zachować emocje mówiącego, a nawet środowisko akustyczne, w jakim nagrano próbkę!
Microsoft have announced their AI "VALL-E"
— Del @ NaughtyDog (@TheCartelDel) January 7, 2023
Using a 3-second sample of human speech, it can generate super-high-quality text-to-text speech from the same voice. Even emotional range and acoustic environment of the
sample data can be reproduced. Here are some examples. pic.twitter.com/ExoS2VWO6d
Microsoft bliski przejęcia Nuance Communications. Sztuczna inteligencja i rozwiązania medyczne tylko na tym zyskają
Aby wyćwiczyć VALL-E w syntezie mowy, wykorzystano około 60 tys. godzin nagrań w języku angielskim, co jest liczbą setki razy wyższą, niż w przypadku obecnie stosowanych systemów TTS (Text To Speech). Jeśli jesteście szczególnie zainteresowani tym zagadnieniem, to odsyłam do artykułu naukowego, który szczegółowo przedstawia procesy działania VALL-E, a od siebie dodam już tylko, że VALL-E pracuje w oparciu o rozwiązanie EnCodec, które zostało przedstawione przez spółkę Meta jesienią ubiegłego roku.
Powiązane publikacje

ARM ma już 40 lat. Architektura, która zasila smartfony, serwery i roboty, trafiła do ponad 250 miliardów urządzeń
22
Anthropic chce zajrzeć do wnętrza AI. Czy do 2027 roku odkryjemy, jak naprawdę myślą modele językowe?
22
Firma Elona Muska xAI chce pozyskać 25 miliardów dolarów na budowę superkomputera Colossus 2 z milionem GPU NVIDIA
60
Nowatorski interfejs mózg-komputer od Georgia Tech może zmienić sposób, w jaki ludzie komunikują się z technologią i otoczeniem
4