Voice Engine - technologia od OpenAI pozwala na realistyczne klonowanie głosu. Wystarczy zaledwie krótka próbka
Dzisiejsza technologia związana z AI to nie tylko chatboty i generatory obrazów lub filmów, ale także możliwość sklonowania praktycznie dowolnego głosu. Na rynku co prawda istnieje już wiele takich rozwiązań, natomiast organizacja OpenAI zaprezentowała właśnie model Voice Engine, który pozwala uzyskać imponujące efekty. Może on utworzyć bardzo realistyczny głos konkretnej osoby — w tym celu wystarczy mu zaledwie kilkunastosekundowa próbka.
OpenAI pokazało próbkę możliwości swojego modelu Voice Engine, który pozwala na zamianę tekstu na mowę z użyciem dowolnego głosu źródłowego. Organizacja chce jednak odpowiedzialnie podejść do tematu, więc rozwiązanie nie jest jeszcze publicznie dostępne.
Model GPT-4 od OpenAI został zdetronizowany. Użytkownicy wybrali następnego króla, którym jest nowość od Anthropic
Model Voice Engine jest rozwijany już od dłuższego czasu, natomiast teraz OpenAI postanowiło przedstawić jego możliwości. Trzeba przyznać, że uzyskiwane efekty są dosłownie rewelacyjne. Wspomniana 15-sekundowa próbka wystarcza nie tylko do tego, aby sklonować barwę głosu. Na jej podstawie można odwzorować różne emocje, a także zmieniać tempo mowy. Wszystko to składa się na bardzo realistyczny głos, który w niczym nie przypomina dawnych syntezatorów mowy. Przykłady pokazane przez OpenAI na tej stronie ukazują, że sklonowanym głosem można odczytywać teksty w innym języku i to z zachowaniem czyjegoś akcentu. Umożliwia to choćby płynne tłumaczenie filmów. Kolejnym pożytecznym wykorzystaniem Voice Engine jest pomoc dla osób, które z jakiegoś powodu nie mogą się normalnie i swobodnie wypowiadać. Można bowiem użyć krótkiej próbki głosu sprzed wypadku.
Stable Diffusion stworzy grafikę w ułamku sekundy. Badacze z MIT przedstawili metodę, która usprawni każdy model AI
Oczywiście omawiane rozwiązanie niesie za sobą równie wiele, a może nawet więcej zagrożeń. OpenAI zdaje sobie z tego sprawę, więc zamierza najpierw przedyskutować to, w jaki sposób można rozważnie wprowadzić tę technologię na szerszą skalę. Do tego w każdym nagraniu, które zostanie stworzone przy użyciu Voice Engine, zaimplementowany zostanie znak wodny. Ma to pozwolić na łatwą identyfikację źródła. Aktualnie tylko garstka wybranych osób uzyskała dostęp do tego modelu, a dopiero po wprowadzeniu wspomnianych środków bezpieczeństwa trafi on na rynek. Jest to bardzo dobre podejście, wszak już teraz wiele podobnych rozwiązań przyczyniło się do szerzenia dezinformacji. Świat zmienia się nie do poznania i z jednej strony jest to fascynujące, natomiast z drugiej dosłownie przerażające.
Powiązane publikacje

Gemini Live z większymi możliwościami już wkrótce. Jednak bez subskrypcji nie skorzystamy z nowości od Google
8
Nadchodzą chatboty, które będą działać 10x szybciej od obecnych. Mercury to pierwsza seria dLLM, która to udowadnia
40
Komunikator Skype oficjalnie się żegna. Firma Microsoft zachęca do pozostawienia go na rzecz platformy Teams
40
OpenAI prezentuje GPT-4.5. Największy model AI już dostępny dla subskrybentów ChatGPT Pro. Większa wiedza i naturalne rozmowy
14