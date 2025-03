Rozwój „sztucznej inteligencji” już teraz pozwala na tworzenie realistycznych obrazów, a także ich późniejszą modyfikację przy pomocy innych dostępnych narzędzi. Jednym z najnowszych jest całkiem ambitny projekt od Apple, które w ramach badań współpracowało razem z Uniwersytetem Kalifornijskim w Santa Barbara. Dzięki temu powstał MGIE (MLLM-Guided Image Editing), a więc rozwiązanie, które umożliwia obróbkę grafiki poprzez polecenia tekstowe.

MGIE to jedno z ostatnich narzędzi od firmy Apple, które ma umożliwić całkiem prostą obróbkę grafiki. Nie trzeba będzie nawet się na tym znać, gdyż do całego procesu wystarczy jedynie wydawanie poleceń tekstowych.

W celu osiągnięcia wymaganego celu do pracy zaprzęgnięto multimodalne duże modele językowe (MLLM), które są w stanie analizować zdjęcia z dużą dokładnością. Dzięki nim powstało narzędzie MGIE, które pozwala na prostą obróbkę zdjęć, ponieważ wystarczy, że opiszemy, co konkretnie ma się zmienić w danej grafice. Z pewnością będzie to sporym ułatwieniem dla wszystkich osób, które nie są zaznajomione z programami pokroju Gimpa, czy też Photoshopa. Poniżej możemy zobaczyć kilka przykładów, które ukazują potencjalne zastosowanie. Możemy więc usunąć obiekt z tła, zmienić główną zawartość, czy też odpowiednio dostosować parametry takie jak jasność, nasycenie lub kontrast wybranego elementu. Oczywiście możliwości jest dużo więcej, natomiast kilka z właśnie wymienionych obrazuje to, z czym mamy do czynienia.

Interesujące jest to, że Apple udostępniło MGIE na platformie GitHub, więc każdy ma dostęp do całego kodu źródłowego. Dodatkowo znajdziemy tam wstępnie wyszkolone modele językowe. Jeśli jednak chcemy przetestować narzędzie, to wystarczy, że udamy się pod ten adres. Następnie wybieramy jakąkolwiek grafikę i opisujemy, co ma się zmienić. Nasze polecenie zostanie przekształcone w bardziej szczegółową komendę, a obraz odpowiednio się dostosuje. Same efekty... cóż, są naprawdę różne. W moim przypadku instrukcje były czasem źle interpretowane, więc rezultat nie był zgodny z oczekiwaniami. Natomiast kiedy wszystko poszło zgodnie z planem, to obrobiona grafika prezentowała się naprawdę dobrze. Więcej o samym badaniu możemy się dowiedzieć z tego linku (dokumentacja).

Źródło: Apple, arXiv