Każdy z dostępnych na rynku generatorów obrazów opiera się na konkretnym modelu. Jednym z najpopularniejszych, który przy okazji przyczynił się poniekąd do małej rewolucji w tym segmencie technologii, jest Stable Diffusion od firmy Stability AI. Nie tak dawno wprowadzono jego kolejne odmiany, w tym wersję XL Turbo, która była w stanie tworzyć obrazy niemal w czasie rzeczywistym. Tym razem do gry wchodzi model Stable Cascade, który zmienia sposób działania.

Nowy model Stable Cascade, który ma służyć do szybkiego generowania obrazów, jest już dostępny. W porównaniu do swojego poprzednika, jakim jest Stable Diffusion, wyróżnia się swoim sposobem funkcjonowania, możliwością kontroli nad tworzoną grafiką, a także wymaga mniej zasobów do działania.

Raptem kilka dni temu Stability AI zaprezentowało następną generację modeli, które zdolne są tworzyć obrazy z opisów tekstowych. Nowo wprowadzony Stable Cascade opiera się na wydajnej architekturze Würstchen i charakteryzuje się swoim trzystopniowym sposobem działania, na który składają się trzy osobne modele (stąd "kaskada" w nazwie). Na dodatek osiąga dużo lepszy współczynnik początkowej kompresji obrazu o wartości 42, co oznacza, że grafiki o rozdzielczości 1024 x 1024 px są tworzone z bazowej 24 x 24 px, a nie 128 x 128 px jak w przypadku Stable Diffusion. Wspomniane trzy modele to: Stage A, Stage B i Stage C. Ostatnia pozycja jest pierwszą fazą, która po wpisaniu polecenia przekształca tekst do małej grafiki reprezentującej późniejszy obraz. Następnie jest ona przekazywana dalej do Stage B, gdzie grafika nabiera większych wymiarów. Ostatecznie całość jest przekształcana w wysokiej jakości obraz końcowy (poprzez VAE, identycznie jak w Stable Diffusion).

Dzięki takiemu kaskadowemu procesowi uzyskujemy dużo większą kontrolę nad obrazem, gdyż łatwo możemy zmienić poszczególne elementy w tej samej grafice, ponieważ faza Stage C jest oddzielna od A i B. Bez problemu uzyskamy kilka wariacji obrazu, zmienimy konkretną część grafiki itd. Całość wyróżnia się naprawdę dużą szybkością działania. Pierwszy obraz poniżej został wygenerowany w mniej niż 10 sekund (dla porównania Stable Diffusion XL to około 22 sekundy). Mniejsze wymagania sprzętowe z pewnością można zaliczyć na plus. Całe rozwiązanie jest dostępne na platformie GitHub. Natomiast jeśli mamy ochotę nieoficjalnie je przetestować, to wystarczy udać się pod ten adres. Na koniec warto wspomnieć, że poszczególne modele zostały udostępnione z różną liczbą parametrów - odpowiednie wartości znajdziemy w podanym linku do GitHuba.

Przykładowy obraz wygenerowany przez Stable Cascade w mniej niż 10 sekund.

Sposób funkcjonowania nowego modelu.

Źródło: Stability AI