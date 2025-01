Kolejny kamień milowy w technologii generowania obrazów z opisów tekstowych miał zostać osiągnięty przy wprowadzeniu modelu DALL-E 3. Został on zaprezentowany pod koniec września 2023 roku, natomiast jego debiut miał ściśle współgrać z płatną wersją ChatGPT. Microsoft postanowił jednak udostępnić nowość za darmo, dzięki czemu każdy może ją przetestować. DALL-E 3 ma wyróżniać się od innych tym, że dokładnie stosuje się do poleceń użytkownika, a także potrafi generować poprawne słowa. Czy faktycznie udało się to osiągnąć?

Oficjalna premiera nowej edycji generatora obrazów od OpenAI, czyli DALL-E 3, właśnie stała się faktem. Postanowiono jednak, że korzystanie z usługi będzie w pełni darmowe.

Na ten moment istnieje już spora ilość usług, które oferują możliwość generowania obrazów z opisów tekstowych. Natomiast dotychczas w tej dziedzinie przodowało Midjourney. Z czasem jednak konkurencja stawała się coraz lepsza, a dziś możemy osiągnąć bardzo zbliżone efekty, nie płacąc ani grosza za tego typu rozwiązania. Tym bardziej cieszy fakt, że Microsoft postanowił udostępnić nowy model DALL-E 3 dla wszystkich za darmo. Jak wspomniano we wstępie, obecna generacja jest w stanie poprawnie interpretować prośby użytkownika, a więc gdy zażyczymy sobie jakiegoś elementu po lewej stronie, z kolei innego pośrodku, to właśnie tak powinien prezentować się końcowy obraz. Otrzymaliśmy także możliwość generowania napisów, co do tej pory było dość... dyskusyjne.

W praktyce całość wypada naprawdę dobrze, a osiągane efekty potrafią być nawet bardziej niż zadowalające. Poprawiony został także dość znacznie aspekt generowania dłoni, który do tej pory jest piętą achillesową dzisiejszych generatorów obrazów. Jak widać na poniższych grafikach, dłonie nie tylko mają poprawną ilość palców (co wcale nie jest taką oczywistością), ale także zostały poprawnie wygenerowane pod kątem proporcji, czy też pojedynczych szczegółów.

Kolejnym testem było stworzenie logo z napisem "PurePC", które miało prezentować sobą technologiczny styl. W tym aspekcie DALL-E 3 także poradził sobie całkiem nieźle, a sam napis wygląda dobrze. Natomiast próba wygenerowania robota, który mówi "PurePC - wiemy, co się kręci", poskutkowały zmianą tekstu na angielski, a do tego można zauważyć kilka znaczących zniekształceń. Nie jest więc idealnie w każdym wypadku, aczkolwiek nowa generacja faktycznie wprowadza sporo usprawnień.

Z kolei polecenie utworzenia kota po lewej stronie, banana pośrodku i księżyca z prawej strony, zostało wykonane wręcz wzorowo. Od razu można zauważyć, że to, co piszemy, ma bardzo duży wpływ na efekt końcowy. W celu skorzystania z omawianej nowości wystarczy skorzystać z chatbota Bing lub udać się na stronę generatora obrazów Bing. obu przypadkach musimy użyć swojego konta Microsoft, natomiast samo tworzenie grafik przebiega dużo sprawniej na dedykowanej stronie niż w przypadku korzystania z chatbota.

Źródło: Microsoft