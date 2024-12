Osoby niedowidzące oraz niewidome mają dość utrudnione życie w dzisiejszym świecie. Oczywiście do tej pory mogli liczyć na pewne ułatwienia, jednak aktualna technologia daje im dużo większe możliwości. Na systemie Android pojawiła się właśnie nowa aplikacja od Microsoftu, która nazywa się Seeing AI. Pozwala ona na identyfikowanie obiektów, scen i ludzi, którzy znajdują się przed kamerą smartfona, a następnie głosowe opisanie wybranych elementów przez asystenta AI.

Seeing AI jest dowodem na to, że obecną technologię związaną ze "sztuczną inteligencją" można wykorzystać w praktyczny i przydatny sposób. Aplikację docenią przede wszystkim osoby, które mają problemy ze wzrokiem, ponieważ umożliwi im ona „ujrzenie” wszystkiego, co ich otacza.

Aplikacja Seeing AI znana jest użytkownikom smartfonów od Apple już od pewnego czasu, natomiast dopiero teraz zawitała na urządzenia z Androidem. Do działania wykorzystuje ona platformę Azure AI. Aktualnie multimodalne duże modele językowe (MLLM) radzą sobie bardzo dobrze nie tylko z tekstem, ale także z obrazami, muzyką, czy też materiałami wideo. Technologia ta pozwoliła na to, żeby omawiana aplikacja przedstawiała świat osobom niewidomym lub z wadami wzroku. Wystarczy, że skierujemy kamerę w smartfonie na konkretny obiekt, scenę lub dokument i za chwilę usłyszymy głosowy opis. W praktyce rozwiązanie wypada naprawdę zaskakująco dobrze.

Seeing AI jest dostępna za darmo, więc wystarczy udać się do Sklepu Google Play lub App Store i pobrać oprogramowanie. Interfejs jest bardzo prosty i pozwala na wygodne przełączanie się pomiędzy trybami. W czasie rzeczywistym możemy odsłuchać tekst, który znajduje się przed nami, posłuchamy treści całych dokumentów, czy też zeskanujemy kody kreskowe danych produktów, a następnie usłyszymy, z jaką rzeczą mamy do czynienia. Funkcje pozwalają także na określenie wartości pieniędzy (nie ma jeszcze polskiej waluty), zidentyfikowanie liczby osób, całej sceny, czy też kolorów obiektów. Zaimplementowano nawet opcję, która dźwiękowo przedstawi, jak jasno jest w danym pomieszczeniu. Przetestowałem aplikację osobiście i mogę przyznać, że wszystko działa naprawdę błyskawicznie. Wystarczy, że przed kamerą ukaże się jakiś tekst i od razu usłyszymy jego treść. Obiekty i sceny są identyfikowane z dużą dokładnością, choć zdarzają się małe nieścisłości. Warto samemu się przekonać, co oferuje dzisiejsza technologia.

Źródło: Microsoft