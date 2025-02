Coraz więcej dużych przedsiębiorstw tworzy swoich inteligentnych asystentów, którzy opierają się na dużych modelach językowych. Firma zarządzana przez Marka Zuckerberga oferuje usługę Meta AI, która w swojej multimodalnej wersji potrafi analizować nie tylko tekst, ale i zdjęcia, wideo oraz dźwięki. Do tej pory funkcja była obecna w okularach Ray-Ban Meta, natomiast już wkrótce zawita także do headsetu do wirtualnej i rozszerzonej rzeczywistości - Meta Quest 3.

Wirtualny asystent Meta AI niebawem zagości na pokładzie gogli Meta Quest 3. Użytkownicy będą mogli więc skorzystać z multimodalnych możliwości, jakie zapewnia duży model językowy Llama.

Asystent Meta AI stosunkowo niedawno otrzymał aktualizację o nazwie Vision, która dodała do usługi multimodalne możliwości. Początkowo mogły z niej skorzystać wspomniane we wstępie inteligentne okulary stworzone w wyniku współpracy Mety z marką Ray-Ban, a już w sierpniu 2024 roku funkcja zostanie udostępniona dla gogli Meta Quest 3 (początkowo dla użytkowników z USA i Kanady). Dzięki niej w trybie podglądu otoczenia będziemy w stanie porozmawiać z asystentem, który może analizować obraz z wbudowanych kamer.

Oczywiście konwersacje będą prowadzone w czasie rzeczywistym, a mogą dotyczyć zarówno widzianych obiektów w naszym otoczeniu, jak i zupełnie odrębnych kwestii. Przykłady widoczne są w powyższym materiale wideo od Mety. Na ten moment usługa Meta AI nie może analizować treści, które są wyświetlane w poszczególnych aplikacjach, choć w planach jest dodanie również takiej możliwości. Całość można przyrównać do chatbota, który otrzymał sposobność patrzenia na świat. Nie wiemy jednak, czy (i kiedy) funkcja zawita do Polski, choć zapewne będzie istniała możliwość ustalenia innego regionu, aby komunikować się z asystentem w języku angielskim.

Źródło: Meta