Do tej pory asystenci głosowi nie byli specjalnie przydatni przez fakt, że nie oferowali zbyt dużej funkcjonalności. Owszem, Asystent Google pozwalał przy pomocy głosowych poleceń ustawić budzik, zadzwonić do wybranej osoby, wyszukać coś w internecie, czy opowiedzieć żart, ale na tych prostych czynnościach jego (i wielu innych rozwiązań) możliwości się kończyły. Powoli wkraczamy jednak w nową erę, w której asystenci AI będą mogli pomagać nam w każdej codziennej sprawie.

Project Astra jest odpowiedzią Google na nadchodzących zewsząd asystentów AI, którzy będą w stanie rozumieć otaczający nas świat i pomagać nam w wielu zagadnieniach. Nowość opiera się na modelu Gemini i będzie działać zarówno na smartfonach, jak i okularach AR.

Spora część dzisiejszych dużych modeli językowych (LLM) jest multimodalna. Oznacza to, że są one w stanie przetwarzać nie tylko tekst, ale również dźwięk i obraz, a następnie generować odpowiedzi na ich podstawie. To właśnie te możliwości mają być wykorzystywane w nadchodzących asystentach AI. Nie tak dawno OpenAI zaprezentowało swój nowy model GPT-4o, a wraz z nim ukazano, że jest on w stanie analizować materiał wideo rejestrowany z przedniej kamery smartfona i odpowiadać na zadane pytania niemal w czasie rzeczywistym. Jednak chwilę później na konferencji Google I/O 2024 pokazano konkurencyjną, taką samą funkcjonalność, która obecnie skrywa się pod nazwą Project Astra. Google przedstawiło możliwości swojego asystenta AI, który opiera się na modelu Gemini, na krótkim materiale wideo. Jedna z pracownic używała kamery w smartfonie, aby zadawać pytania dotyczące widocznych przez nią obiektów.

Asystent bez problemu odpowiadał praktycznie bezbłędnie na każde zagadnienie, a jego czas reakcji był naprawdę krótki — a to właśnie ta cecha decyduje, czy rozwiązanie z tej dziedziny ma jakikolwiek sens. Na dodatek może on przypominać sobie, co zostało pokazane wcześniej. Google twierdzi, że materiał nie był "ustawiony" jak w przypadku prezentacji modeli Gemini, a wszystko zostało nagrane za jednym podejściem. Co ciekawe, w drugiej części materiału wykorzystywany jest prototypowy model okularów AR, które przynoszą na myśl czasy Google Glass. Być może z obecną technologią jest szansa, że Google wróci do tego pomysłu i za jakiś czas na rynku pojawi się kolejna generacja. Tym bardziej że zarówno Meta, jak i inne firmy coraz bardziej inwestują w ten segment, więc moment na ponowne wejście na rynek jest wręcz idealny. Google informuje, że z czasem część pokazanej funkcjonalności będzie dostępna w usługach tego przedsiębiorstwa.

