Rozwój nowych modeli związanych z algorytmami sztucznej inteligencji odbija się pozytywnym echem na naprawdę wielu płaszczyznach. Jedną z nich jest dziedzina robotyki. W fazie rozwojowej są obecnie modele uczenia maszynowego zwane VLA. Potrafią one łączyć dane wizualne z tekstowymi i wykonywać określone wcześniej działania. Jednym z nich jest opracowany przez Google RT-2. Już na ten moment zapowiada się on bardzo obiecujące, ze względu na swoje spore możliwości.

Wprowadzony przez Google model VLA o nazwie RT-2 już niebawem może zmienić oblicze robotyki. Dzięki niemu wydawanie poleceń robotom będzie o wiele prostsze, a one same będą mogły wykazywać się swoją inicjatywą.

RT-2 (Robotic Transformer 2) to model VLA (Vision-Language-Action), który potrafi się uczyć zarówno na zasobach internetowych, jak i danych dotyczących dziedziny robotyki. Został on oparty na bazie treningowej RT-1 (składa się ona z danych zebranych za pomocą 13 robotów w okresie 17 miesięcy w kuchni) oraz modelach VLM (Vision-Language Model), takich jak PaLM-E (Pathways Language Embodied) oraz PaLI-X (Pathways Language and Image). Połączenie tych wszystkich składowych pozwala osiągać naprawdę dobre rezultaty. Model potrafi skorzystać z obrazu widocznego poprzez kamerę umieszczoną w robocie i przekształcić te dane w specjalne tokeny. Dzięki temu, że tak jak wspomniano, jego baza opiera się na danych z internetu oraz tych z robotyki, jest on w stanie interpretować obiekty oraz dokonywać związanych z nimi działań - i to nawet wtedy, gdy wcześniej nie miał możliwości zapoznać się z danym elementem.

Można więc wydać polecenie, aby robot chwycił jakiś przedmiot i przeniósł go w inne miejsce. Po analizie otoczenia i znalezieniu obiektu, dane wejściowe zostaną przetworzone na język zrozumiały dla robota (a więc określą dokładne współrzędne oraz proces działania). Pozwala to na szeroki zakres możliwych zastosowań, ponieważ modele uczą się korelacji pomiędzy obrazem a językiem. RT-2 wypada w dokładności dużo lepiej od swoich rywali, wykazując 90% skuteczność w zakresie symulacji - BC-Z (72%), RT-1 (74%), LAWA (77%). Firma wdraża również technikę chain-of-thought (dosł. łańcuch myśli), która pozwala na efektywniejsze rozwiązywanie zadań, dzięki planowaniu długoterminowym. Świetnie ilustruje to ostatnia grafika w tym newsie, w której widać, jak robot poproszony o wybór przydatnego przedmiotu potrzebnego do wbicia gwoździa, wybiera kamień, zamiast kartki papieru i przewodu. Modele VLA z pewnością będą miały duży wkład w rozwój robotyki.

