HunyuanWorld-Voyager, nowy model AI firmy Tencent, generuje kompletne, interaktywne sceny 3D z jednego zdjęcia
Generatywna AI przesuwa granice możliwości, a jej rozwój w dziedzinie tworzenia grafiki 3D nabiera ogromnego tempa. Przyszedł czas na kolejny przełom. Najnowsze osiągnięcia w tej dziedzinie otwierają drzwi do tworzenia całych, spójnych i interaktywnych światów 3D na podstawie zaledwie jednego, płaskiego obrazu. To może całkowicie zmienić sposób, w jaki postrzegamy produkcję gier, filmów czy wirtualnych symulacji.
Nowy model AI chińskiej firmy Tencent, HunyuanWorld-Voyager, potrafi wygenerować z pojedynczego zdjęcia interaktywny, trójwymiarowy świat o zaskakującej spójności i realizmie.
Google DeepMind Genie 3 to AI, które buduje interaktywne światy z jednego zdania. Przerazi deweloperów i zmieni gaming na zawsze
Sztuczna inteligencja coraz śmielej wkracza w obszary do niedawna zarezerwowane dla grafików 3D. Chińska firma Tencent zaprezentował właśnie model o nazwie HunyuanWorld-Voyager, który potrafi przekształcić pojedyncze zdjęcie w pełni eksplorowalną, trójwymiarową scenę. Technologia ta jest rozwinięciem wcześniejszych koncepcji, takich jak NeRF czy Gaussian Splatting. W przeciwieństwie do wielu dotychczasowych rozwiązań, model firmy Tencent nie skupia się wyłącznie na rekonstrukcji widocznych na zdjęciu obiektów, ale stara się inteligentnie dopełnić i wygenerować elementy, które były zasłonięte lub znajdowały się poza kadrem. W ten sposób powstaje spójny geometrycznie i wizualnie świat, po którym użytkownik może się swobodnie poruszać, odkrywając go z zupełnie nowych perspektyw. Podstawą sukcesu jest tu zaawansowany system, który najpierw analizuje głębię i geometrię sceny, a następnie generuje siatkę 3D (mesh), tekstury i materiały oparte na fizyce (PBR), co zapewnia wysoki realizm.
Google AI Pro, czyli nowy wymiar produktywności dzięki zaawansowanym narzędziom sztucznej inteligencji
HunyuanWorld-Voyager potrafi tworzyć nie tylko statyczne otoczenie, ale także generować materiały, które realistycznie oddziałują ze światłem, co jest fundamentem nowoczesnej grafiki komputerowej. Algorytm jest w stanie rozpoznać rodzaj powierzchni, na przykład metal, drewno czy wodę, i przypisać jej odpowiednie właściwości odbijania i rozpraszania światła. Model tworzy tak zwaną mapę nieba (skybox), zapewniając spójne oświetlenie dla całej sceny. Choć technologia jest imponująca, ma swoje ograniczenia. Jakość generowanych elementów zależy od złożoności zdjęcia wejściowego, a algorytm czasem generuje obiekty o niskiej szczegółowości lub nielogicznej geometrii, zwłaszcza w obszarach, które były całkowicie niewidoczne. Mimo to HunyuanWorld-Voyager stanowi ważny krok w kierunku automatyzacji tworzenia zasobów do gier i wirtualnych środowisk, potencjalnie skracając czas i obniżając koszty produkcji. Tencent udostępnił kod źródłowy projektu na platformie GitHub, co pozwala deweloperom na dalsze eksperymenty i rozwój tej obiecującej technologii. Więcej można o nim poczytać z dokumentu PDF przygotowanego i udostępnionego przez Tencent.
Grok 4 debiutuje w cieniu skandalu. Czy nowy model xAI naprawdę przewyższa ChatGPT i Gemini w każdej dziedzinie?
Wymagania sprzętowe HunyuanWorld-Voyager stawiają wysokie bariery wejścia dla potencjalnych użytkowników. Model potrzebuje minimum 60 GB pamięci GPU dla rozdzielczości 540p, przy czym Tencent zaleca 80 GB VRAM dla optymalnych rezultatów. System obsługuje inferencję równoległą na wielu kartach graficznych z wykorzystaniem frameworka xDiT, osiągając 6,69-krotne przyspieszenie przy użyciu ośmiu GPU. Generacja pojedynczego segmentu video składającego się z 49 klatek trwa około 4 minuty na czterech kartach graficznych pracujących równolegle. Ograniczenia technologii obejmują nie tylko wysokie wymagania obliczeniowe, ale także restrykcje licencyjne. Model nie może być wykorzystywany w Unii Europejskiej, Wielkiej Brytanii oraz Korei Południowej, a komercyjne wdrożenia obsługujące ponad 100 milionów użytkowników miesięcznie wymagają osobnej licencji od Tencent.
Powiązane publikacje

Adobe Premiere za darmo na iPhone i iPad. Aplikacja do montażu wideo zawita też na system Android
19
Microsoft 6502 BASIC stał się otwartoźródłowy. Firma udostępniła cały kod na platformie GitHub
29
Naukowcy odkryli prosty sposób na zmuszenie AI do łamania zasad. Wystarczy jedna sztuczka psychologiczna i działa w 100 proc.
40
Tragedia zmusiła firmę OpenAI do działania. ChatGPT dostanie kontrolę rodzicielską po śmierci 16-latka
18