Voice Engine - technologia od OpenAI pozwala na realistyczne klonowanie głosu. Wystarczy zaledwie krótka próbka
Dzisiejsza technologia związana z AI to nie tylko chatboty i generatory obrazów lub filmów, ale także możliwość sklonowania praktycznie dowolnego głosu. Na rynku co prawda istnieje już wiele takich rozwiązań, natomiast organizacja OpenAI zaprezentowała właśnie model Voice Engine, który pozwala uzyskać imponujące efekty. Może on utworzyć bardzo realistyczny głos konkretnej osoby — w tym celu wystarczy mu zaledwie kilkunastosekundowa próbka.
OpenAI pokazało próbkę możliwości swojego modelu Voice Engine, który pozwala na zamianę tekstu na mowę z użyciem dowolnego głosu źródłowego. Organizacja chce jednak odpowiedzialnie podejść do tematu, więc rozwiązanie nie jest jeszcze publicznie dostępne.
Model GPT-4 od OpenAI został zdetronizowany. Użytkownicy wybrali następnego króla, którym jest nowość od Anthropic
Model Voice Engine jest rozwijany już od dłuższego czasu, natomiast teraz OpenAI postanowiło przedstawić jego możliwości. Trzeba przyznać, że uzyskiwane efekty są dosłownie rewelacyjne. Wspomniana 15-sekundowa próbka wystarcza nie tylko do tego, aby sklonować barwę głosu. Na jej podstawie można odwzorować różne emocje, a także zmieniać tempo mowy. Wszystko to składa się na bardzo realistyczny głos, który w niczym nie przypomina dawnych syntezatorów mowy. Przykłady pokazane przez OpenAI na tej stronie ukazują, że sklonowanym głosem można odczytywać teksty w innym języku i to z zachowaniem czyjegoś akcentu. Umożliwia to choćby płynne tłumaczenie filmów. Kolejnym pożytecznym wykorzystaniem Voice Engine jest pomoc dla osób, które z jakiegoś powodu nie mogą się normalnie i swobodnie wypowiadać. Można bowiem użyć krótkiej próbki głosu sprzed wypadku.
Stable Diffusion stworzy grafikę w ułamku sekundy. Badacze z MIT przedstawili metodę, która usprawni każdy model AI
Oczywiście omawiane rozwiązanie niesie za sobą równie wiele, a może nawet więcej zagrożeń. OpenAI zdaje sobie z tego sprawę, więc zamierza najpierw przedyskutować to, w jaki sposób można rozważnie wprowadzić tę technologię na szerszą skalę. Do tego w każdym nagraniu, które zostanie stworzone przy użyciu Voice Engine, zaimplementowany zostanie znak wodny. Ma to pozwolić na łatwą identyfikację źródła. Aktualnie tylko garstka wybranych osób uzyskała dostęp do tego modelu, a dopiero po wprowadzeniu wspomnianych środków bezpieczeństwa trafi on na rynek. Jest to bardzo dobre podejście, wszak już teraz wiele podobnych rozwiązań przyczyniło się do szerzenia dezinformacji. Świat zmienia się nie do poznania i z jednej strony jest to fascynujące, natomiast z drugiej dosłownie przerażające.
Powiązane publikacje

CrystalMark Retro 2.0.0 to nowa wersja kultowego benchmarku z obsługą systemów od Microsoft Windows 95 do Windows 11
12
Google Gemini 2.5 Pro dostępny za darmo. Nowy model AI zaskakuje wynikami w testach i multimodalnością
23
Apple planuje rewolucję w aplikacji Zdrowie, wprowadzając wirtualnego lekarza wykorzystującego sztuczną inteligencję
24
Przeglądarka internetowa Vivaldi integruje się z Proton VPN. Użytkownicy mogą stać się bardziej anonimowi w Internecie
142