Seeing AI - aplikacja dla niewidomych od Microsoftu trafia na Androida. Sztuczna inteligencja pozwoli im zobaczyć świat
Osoby niedowidzące oraz niewidome mają dość utrudnione życie w dzisiejszym świecie. Oczywiście do tej pory mogli liczyć na pewne ułatwienia, jednak aktualna technologia daje im dużo większe możliwości. Na systemie Android pojawiła się właśnie nowa aplikacja od Microsoftu, która nazywa się Seeing AI. Pozwala ona na identyfikowanie obiektów, scen i ludzi, którzy znajdują się przed kamerą smartfona, a następnie głosowe opisanie wybranych elementów przez asystenta AI.
Seeing AI jest dowodem na to, że obecną technologię związaną ze "sztuczną inteligencją" można wykorzystać w praktyczny i przydatny sposób. Aplikację docenią przede wszystkim osoby, które mają problemy ze wzrokiem, ponieważ umożliwi im ona „ujrzenie” wszystkiego, co ich otacza.
ChatGPT Plus - OpenAI wzbogaca multimodalny model. Nowa aktualizacja pozwala chatbotowi na pracę z plikami
Aplikacja Seeing AI znana jest użytkownikom smartfonów od Apple już od pewnego czasu, natomiast dopiero teraz zawitała na urządzenia z Androidem. Do działania wykorzystuje ona platformę Azure AI. Aktualnie multimodalne duże modele językowe (MLLM) radzą sobie bardzo dobrze nie tylko z tekstem, ale także z obrazami, muzyką, czy też materiałami wideo. Technologia ta pozwoliła na to, żeby omawiana aplikacja przedstawiała świat osobom niewidomym lub z wadami wzroku. Wystarczy, że skierujemy kamerę w smartfonie na konkretny obiekt, scenę lub dokument i za chwilę usłyszymy głosowy opis. W praktyce rozwiązanie wypada naprawdę zaskakująco dobrze.
Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3
Seeing AI jest dostępna za darmo, więc wystarczy udać się do Sklepu Google Play lub App Store i pobrać oprogramowanie. Interfejs jest bardzo prosty i pozwala na wygodne przełączanie się pomiędzy trybami. W czasie rzeczywistym możemy odsłuchać tekst, który znajduje się przed nami, posłuchamy treści całych dokumentów, czy też zeskanujemy kody kreskowe danych produktów, a następnie usłyszymy, z jaką rzeczą mamy do czynienia. Funkcje pozwalają także na określenie wartości pieniędzy (nie ma jeszcze polskiej waluty), zidentyfikowanie liczby osób, całej sceny, czy też kolorów obiektów. Zaimplementowano nawet opcję, która dźwiękowo przedstawi, jak jasno jest w danym pomieszczeniu. Przetestowałem aplikację osobiście i mogę przyznać, że wszystko działa naprawdę błyskawicznie. Wystarczy, że przed kamerą ukaże się jakiś tekst i od razu usłyszymy jego treść. Obiekty i sceny są identyfikowane z dużą dokładnością, choć zdarzają się małe nieścisłości. Warto samemu się przekonać, co oferuje dzisiejsza technologia.
Powiązane publikacje

W Google Discover pojawią się treści z YouTube i Instagrama. Google zmieni oblicze popularnej sekcji z wiadomościami
4
OpenAI GPT-5-Codex. Specjalistyczny model do autonomicznego kodowania z dynamicznym czasem myślenia i integracją GitHub
8
Google Gemini 2.5 Deep Think rozwiązał problem matematyczny, którego nie rozgryzł żaden zespół ludzi podczas ICPC 2025
16
Twoja prywatność w sieci stała się towarem. Zobacz, jak rośnie potęga rynku, który ma ją chronić przed hakerami i korporacjami
28