AI uczy się języka oglądając filmy. Roboty łatwiej nas zrozumieją
Systemy rozpoznawania mowy stają się coraz ważniejsze w trakcie wyszukiwania w Internecie czy w przeszukiwaniach baz danych, a także w systemach Sztucznej Inteligencji takich jak Alexa i Siri. Wkrótce mogą być również wykorzystywane do robotyki domowej czy Internetu Rzeczy. Rzecz w tym by maszyna nauczyła się języka w takim stopniu by rozumiała ludzi. Tylko pozornie wydaje się to proste. Rozmawiamy przecież często rzucając jedynie fragmenty zdań. I tu właśnie natrafiamy na tą trudną część zadania. Naukowcy z amerykańskiego Massachusetts Institute of Technology zaprezentowali nową metodę uczenia się języka przez maszyny - dokładnie taką jaką stosują bezwiednie dzieci.
W przyszłości taki program do nauki języka może zostać użyty do poprawy interakcji między ludźmi, a robotami
Dzieci uczą się języka, obserwując otoczenie, słuchając ludzi wokół i łącząc to co widzą z tym co słyszą. Pomaga im to ustalić między innymi kolejność słów w języku by zbudować je w gramatycznie poprawny sposób nie znając przy tym zasad gramatyki. W informatyce nauka języka jest zadaniem tak zwanych parserów (ang. parsing) analizatora składniowego i semantycznego (znaczenia słów). Systemy te są szkolone przez ludzi, którzy opisują strukturę zdań i znaczenie słów. Ale zbieranie informacji z adnotacji danych potrzebnych do szkolenia jest czasochłonne i trudne. W trakcie wykładu wygłoszonego na niedawnej konferencji Empirical Methods in Natural Language Processing naukowcy z MIT opisują parser, który uczy się poprzez obserwację naśladując proces przyswajania języka przez dziecko. Aby poznać strukturę języka, analizuje napisy na filmie wideo, bez innych informacji i kojarzy je z zarejestrowanymi na ekranie obiektami i działaniami.
Powstaje mapa Polskich firm zajmujących się sztuczną inteligencją
Naukowcy połączyli parser semantyczny przeszkolony w rozpoznawaniu obiektów, ludzi i aktywności z urządzeniem wideo. Parsery semantyczne są szkolone za pomocą kodu, który przypisuje znaczenie każdemu słowu i relacjom między wyrazami. Tym razem oprogramowanie zostało także przeszkolone w zakresie obrazów. Naukowcy przygotowali zbiór około 400 filmów przedstawiających ludzi wykonujących szereg czynności na przykład podnoszenie przedmiotu i odkładanie go na miejsce czy przechodzenie w kierunku obiektu. Podczas szkolenia badacze nadali parserowi cel, jakim było ustalenie, czy zdanie z napisów dokładnie opisuje dany film. Algorytm analizuje każdą klatkę wideo, aby śledzić, jak obiekty i ludzie przemieszczają i zmieniają się w czasie, aby określić, czy akcje są zgodnie z opisem.
Dzisiejsza sztuczna inteligencja: inteligentna czy jednak nie?
To podejście do problemu określa się jako weakly-supervised co można przetłumaczyć jako - bez ścisłego nadzoru. Oznacza to, że proces uczenia wymaga ograniczonych danych szkoleniowych, a obiekt uczy się niejako sam. Naśladuje sposób, w jaki dzieci obserwując otaczający je świat uczą się języka. Jeśli analizator składni nie ma pewności co do akcji lub obiektu w zdaniu, może odwoływać się do wideo, aby wyjaśnić sytuację. W przyszłości taki parser może zostać użyty do poprawy interakcji między ludźmi, a robotami. Robot tak wyposażony mógłby stale obserwować otoczenie, aby lepiej zrozumieć polecenia mówione. W tym także, gdy wypowiadane zdania nie są poprawnie gramatycznie lub całkiem jasne. "Ludzie rozmawiają ze sobą w za pomocą urywków zdań, spontanicznie rzuconych myśli i w pogmatwanym języku. Chcesz, aby robot w twoim domu dostosował się do specyficznego sposobu mówienia? Tym własnie się zajmujemy"- mówi współautor badań, Andrei Barbu z Laboratorium Informatyki i Sztucznej Inteligencji (CSAIL) MIT.